Oamenii interpretează rapid greșit acest grafic ca fiind exagerat Iată o explicație clară despre ce se întâmplă: METR construiește un benchmark al sarcinilor software (depanarea sistemelor complexe, antrenarea modelelor ML sau identificarea vulnerabilităților de securitate) Măsoară cât timp îi ia fiecărei sarcini un expert uman priceput să fie finalizată, apoi testează agenții AI pe aceleași sarcini. "Orizontul de timp" este o statistică rezumată: durata sarcinii la care un anumit AI reușește 50% din cazuri. Un model cu un orizont de timp de 2 ore finalizează jumătate din sarcinile care ar dura un expert uman în 2 ore. METR tocmai a raportat că Claude Opus 4.6 are un orizont temporal de 50% de ~14,5 ore, ceea ce, desigur, ar fi incredibil de impresionant... dar METR ne spune să fim precauți! Există o problemă statistică. Pur și simplu nu mai sunt suficiente sarcini dificile pentru a ancora partea superioară a curbei, iar modelele frontieră reușesc acum aproape în tot ce se află în suita de sarcini. Astfel, mici variații aleatorii în rezultate înclină dramatic estimarea: Intervalul de încredere de 95% se întinde de la 6 la 98 de ore, ceea ce este clar un interval nesigur din care oricine ar putea trage concluzii. METR înșiși lucrează la noi metode de măsurare la acest nivel, așa că reducerea așteptărilor este puțin :)