Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Les gens interprètent rapidement ce graphique comme un engouement.
Voici une explication claire de ce qui se passe :
METR construit une référence des tâches logicielles (débogage de systèmes complexes, formation de modèles d'IA, ou recherche de vulnérabilités de sécurité).
Ils mesurent combien de temps chaque tâche prend à un expert humain qualifié pour être complétée, puis testent des agents d'IA sur ces mêmes tâches.
L'"horizon temporel" est une statistique résumée : la durée de la tâche à laquelle une IA donnée réussit 50 % du temps. Un modèle avec un horizon temporel de 2 heures complète la moitié des tâches qui prendraient 2 heures à un expert humain.
METR vient de rapporter que Claude Opus 4.6 a un horizon temporel de 50 % d'environ 14,5 heures, ce qui, bien sûr, serait incroyablement impressionnant...
mais METR nous dit de faire preuve de prudence !
Il y a un problème statistique. Il n'y a tout simplement pas assez de tâches difficiles restantes pour ancrer l'extrémité supérieure de la courbe et les modèles de pointe réussissent maintenant presque tout dans l'ensemble des tâches.
Ainsi, de petites variations aléatoires dans les résultats font osciller l'estimation de manière dramatique :
L'intervalle de confiance à 95 % s'étend de 6 heures à 98 heures, ce qui est clairement une plage peu fiable pour tirer des conclusions.
METR lui-même travaille sur de nouvelles méthodes pour mesurer à ce niveau, donc réduisez un peu vos attentes :)
Meilleurs
Classement
Favoris
