Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un model AI a primit acces nelimitat la web și i s-a cerut să găsească răspunsuri la 1.266 de întrebări. A găsit cheia de răspuns pe GitHub și a decriptat-o. Toată lumea numește asta trișat. Aș numi că am trecut prea bine testul.
"Trișarea" a afectat 2 din 1.266 de întrebări. Scorul ajustat BrowseComp a scăzut de la 86,81% la 86,57%. O schimbare de 0,24 puncte procentuale. Rezultatul benchmark-ului abia s-a mișcat.
Povestea reală este ceea ce s-a întâmplat la celelalte 9 întrebări semnalate. Acestea au provenit din contaminare standard: trimiterile ICLR 2026 pe OpenReview au publicat răspunsurile BrowseComp în tabele clare. Lucrările ArXiv au inclus traiectorii complete ale soluțiilor în anexe. La o întrebare, prima interogare de căutare a lui Opus a returnat o lucrare cu răspunsul exact ca rezultat principal.
Așadar, benchmark-ul conceput pentru a testa dacă modelele pot găsi informații greu de găsit pe web eșuează pentru că cercetătorii continuă să publice răspunsurile pe internet. Asta înseamnă 20+ surse distincte de scurgeri și crește. Anthropic recunoaște că propria lor dezvăluire va agrava problema.
Dar partea care ar trebui să preocupe fiecare laborator AI: 18 runde independente au convergent pe aceeași strategie. Opus a găsit codul sursă GitHub, a reintrodus schema de criptare XOR/SHA-256, și-a scris propriile funcții de decriptare, a găsit o eroare de tip conținut pe fișierul binar, apoi a găsit o oglindă alternativă pe HuggingFace care servea datele într-un format compatibil. Listele de blocare la nivel de URL nu au oprit-o. Modelul ocolea pe lângă ei.
Acest lucru îți spune ceva despre direcția în care se îndreaptă evaluarea AI-ului agentic. Benchmark-urile statice cu chei de răspuns criptate sunt echivalentul cu a pune o lacăt pe o ușă și a oferi modelului un motor de căutare care poate găsi cheia.
Transparența din Anthropic este reală. Ar fi putut relua discret, să păstreze 86,57% și să nu spună nimic. În schimb, au publicat o analiză completă a modului exact în care s-a întâmplat. Compară asta cu modul în care majoritatea laboratoarelor gestionează contaminarea de referință.
Schimbarea scorului de 0,24% dezvăluie problema mai mare: benchmark-urile AI sunt o navă cu scurgeri, iar modelele devin suficient de bune pentru a detecta fiecare scurgere.
Limită superioară
Clasament
Favorite
