Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Le persone stanno rapidamente fraintendendo questo grafico per un'esagerazione.
Ecco una chiara spiegazione su cosa sta succedendo:
METR costruisce un benchmark di compiti software (debugging di sistemi complessi, addestramento di modelli ML o individuazione di vulnerabilità di sicurezza).
Misurano quanto tempo impiega un esperto umano qualificato a completare ciascun compito, quindi testano gli agenti AI su quegli stessi compiti.
L'"orizzonte temporale" è una statistica riassuntiva: la lunghezza del compito alla quale un dato AI ha successo nel 50% dei casi. Un modello con un orizzonte temporale di 2 ore completa metà dei compiti che richiederebbero a un esperto umano 2 ore.
METR ha appena riportato che Claude Opus 4.6 ha un orizzonte temporale del 50% di ~14,5 ore, il che, ovviamente, sarebbe incredibilmente impressionante...
ma METR ci sta dicendo di essere cauti!
C'è un problema statistico. Semplicemente non ci sono abbastanza compiti difficili rimasti per ancorare l'estremità superiore della curva e i modelli di frontiera ora stanno avendo successo in quasi tutto il pacchetto di compiti.
Quindi, piccole variazioni casuali nei risultati stanno facendo oscillare drammaticamente la stima:
L'intervallo di confidenza del 95% va da 6 ore a 98 ore, il che è chiaramente un intervallo inaffidabile da cui trarre conclusioni.
METR stesso sta lavorando su nuovi metodi per misurare a questo livello, quindi abbassa un po' le aspettative :)
Principali
Ranking
Preferiti
