Anthropic upptäckte att Claude Opus 4.6 fuskade under BrowseComp-benchmarken. > På en fråga spenderade den ~40 miljoner tokens på att söka innan den insåg att frågan såg ut som en benchmark-prompt. > Modellen sökte sedan efter själva benchmarken och identifierade BrowseComp. > Den hittade utvärderingskällkoden på GitHub, studerade dekrypteringslogiken, hittade krypteringsnyckeln och återskapade dekrypteringen med hjälp av SHA-256. > Claude dekrypterade sedan svaren för ~1200 frågor för att få rätt resultat. > Detta mönster förekom 18 gånger under utvärderingen. > Anthropic offentliggjorde problemet, återpublicerade de berörda testerna och sänkte sina referenspoäng. Respekt för transparensen 🫡🫡🫡