Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mensen interpreteren deze grafiek snel verkeerd als hype
Hier is een duidelijke uitleg over wat er aan de hand is:
METR bouwt een benchmark van softwaretaken, (het debuggen van complexe systemen, het trainen van ML-modellen of het vinden van beveiligingskwetsbaarheden)
Ze meten hoe lang elke taak duurt voor een bekwame menselijke expert om te voltooien, en testen vervolgens AI-agenten op diezelfde taken.
De "tijdshorizon" is een samenvattende statistiek: de taakduur waarop een bepaalde AI 50% van de tijd succesvol is. Een model met een tijdshorizon van 2 uur voltooit de helft van de taken die een menselijke expert 2 uur zouden kosten.
METR heeft zojuist gerapporteerd dat Claude Opus 4.6 een tijdshorizon van ~14,5 uur heeft, wat natuurlijk ongelooflijk indrukwekkend zou zijn...
maar METR zegt ons voorzichtig te zijn!
Er is een statistisch probleem. Er zijn simpelweg niet genoeg moeilijke taken over om het bovenste deel van de curve te verankeren en grensmodellen slagen nu bijna in alles in de takenreeks.
Dus, kleine willekeurige variaties in de resultaten beïnvloeden de schatting dramatisch:
Het 95% betrouwbaarheidsinterval loopt van 6 uur tot 98 uur, wat duidelijk een onbetrouwbaar bereik is waaruit iemand conclusies kan trekken.
METR zelf werkt aan nieuwe methoden om op dit niveau te meten, dus verlaag de verwachtingen een beetje :)
Boven
Positie
Favorieten
