DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Folk misstolkar snabbt denna graf som hype Här är en tydlig förklaring av vad som händer: METR bygger en benchmark för mjukvaruuppgifter (felsökning av komplexa system, träning av ML-modeller eller upptäckt av säkerhetssårbarheter) De mäter hur lång tid varje uppgift tar för en skicklig mänsklig expert att slutföra och testar sedan AI-agenter på samma uppgifter. "Tidshorisonten" är en sammanfattande statistik: den uppgiftslängd där en given AI lyckas 50 % av gångerna. En modell med en tidshorisont på 2 timmar slutför hälften av uppgifterna som skulle ta en mänsklig expert 2 timmar. METR rapporterade precis att Claude Opus 4.6 har en 50% tidshorisont på ~14,5 timmar, vilket förstås vore otroligt imponerande... men METR säger åt oss att vara försiktiga! Det finns ett statistiskt problem. Det finns helt enkelt inte tillräckligt med svåra uppgifter kvar för att förankra den övre delen av kurvan och frontier-modeller lyckas nu med nästan allt i uppgiftssviten. Så, små slumpmässiga variationer i resultaten svänger uppskattningen dramatiskt: 95 % konfidensintervall sträcker sig från 6 timmar till 98 timmar, vilket tydligt är ett opålitligt intervall för någon att dra slutsatser från. METR själva arbetar med nya metoder för att mäta på denna nivå, så förväntningarna på avtrappning är lite :)

Topp

Rankning

Favoriter