Le persone stanno rapidamente fraintendendo questo grafico per un'esagerazione. Ecco una chiara spiegazione su cosa sta succedendo: METR costruisce un benchmark di compiti software (debugging di sistemi complessi, addestramento di modelli ML o individuazione di vulnerabilità di sicurezza). Misurano quanto tempo impiega un esperto umano qualificato a completare ciascun compito, quindi testano gli agenti AI su quegli stessi compiti. L'"orizzonte temporale" è una statistica riassuntiva: la lunghezza del compito alla quale un dato AI ha successo nel 50% dei casi. Un modello con un orizzonte temporale di 2 ore completa metà dei compiti che richiederebbero a un esperto umano 2 ore. METR ha appena riportato che Claude Opus 4.6 ha un orizzonte temporale del 50% di ~14,5 ore, il che, ovviamente, sarebbe incredibilmente impressionante... ma METR ci sta dicendo di essere cauti! C'è un problema statistico. Semplicemente non ci sono abbastanza compiti difficili rimasti per ancorare l'estremità superiore della curva e i modelli di frontiera ora stanno avendo successo in quasi tutto il pacchetto di compiti. Quindi, piccole variazioni casuali nei risultati stanno facendo oscillare drammaticamente la stima: L'intervallo di confidenza del 95% va da 6 ore a 98 ore, il che è chiaramente un intervallo inaffidabile da cui trarre conclusioni. METR stesso sta lavorando su nuovi metodi per misurare a questo livello, quindi abbassa un po' le aspettative :)