Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic upptäckte att Claude Opus 4.6 fuskade under BrowseComp-benchmarken.
> På en fråga spenderade den ~40 miljoner tokens på att söka innan den insåg att frågan såg ut som en benchmark-prompt.
> Modellen sökte sedan efter själva benchmarken och identifierade BrowseComp.
> Den hittade utvärderingskällkoden på GitHub, studerade dekrypteringslogiken, hittade krypteringsnyckeln och återskapade dekrypteringen med hjälp av SHA-256.
> Claude dekrypterade sedan svaren för ~1200 frågor för att få rätt resultat.
> Detta mönster förekom 18 gånger under utvärderingen.
> Anthropic offentliggjorde problemet, återpublicerade de berörda testerna och sänkte sina referenspoäng.
Respekt för transparensen 🫡🫡🫡
Topp
Rankning
Favoriter
