Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Folk misstolkar snabbt denna graf som hype
Här är en tydlig förklaring av vad som händer:
METR bygger en benchmark för mjukvaruuppgifter (felsökning av komplexa system, träning av ML-modeller eller upptäckt av säkerhetssårbarheter)
De mäter hur lång tid varje uppgift tar för en skicklig mänsklig expert att slutföra och testar sedan AI-agenter på samma uppgifter.
"Tidshorisonten" är en sammanfattande statistik: den uppgiftslängd där en given AI lyckas 50 % av gångerna. En modell med en tidshorisont på 2 timmar slutför hälften av uppgifterna som skulle ta en mänsklig expert 2 timmar.
METR rapporterade precis att Claude Opus 4.6 har en 50% tidshorisont på ~14,5 timmar, vilket förstås vore otroligt imponerande...
men METR säger åt oss att vara försiktiga!
Det finns ett statistiskt problem. Det finns helt enkelt inte tillräckligt med svåra uppgifter kvar för att förankra den övre delen av kurvan och frontier-modeller lyckas nu med nästan allt i uppgiftssviten.
Så, små slumpmässiga variationer i resultaten svänger uppskattningen dramatiskt:
95 % konfidensintervall sträcker sig från 6 timmar till 98 timmar, vilket tydligt är ett opålitligt intervall för någon att dra slutsatser från.
METR själva arbetar med nya metoder för att mäta på denna nivå, så förväntningarna på avtrappning är lite :)
Topp
Rankning
Favoriter
