DApp Store | Centrum Web3 pro události a hry

Populární témata

Chtěl jsem upřesnit několik upřesnění, která podle nás byla jasná v našem článku, ale ne v mém původním příspěvku (opětovná analýza @METR_Evals dat). Naším příspěvkem je prezentovat pokrok jako multiplikativní produkt sigmoidů kolem různých inovací. Na základě dat z METR jsme je rozdělili na zlepšení základních schopností (velikost dat/modelu) a uvažování. Ukazujeme, že tento produkt poskytuje podobný *in-sample* přizpůsobení malým datovým sadám, které pozorujeme jako exponenciální růst. Nicméně důsledky jsou velmi odlišné! Podle našeho modelu bychom potřebovali pokračující inovace (podobné uvažování), abychom viděli pokračující exponenciální pokrok. To neznamená, že vylučujeme exponenciální pokrok, nebo že náš součin sigmoidů je správný model. Jednoduše říkám, že existuje málo bodů a více možných základních modelů s velmi odlišnými důsledky. Náš produktový sigmoid fit vlastně velmi dobře sedí, když držíme GPT 5.2 a/nebo Gemini 3 pro. Vypadáme hůř, když navíc držíme Claude Opus 4.5, ale stále je to věrohodné. Naším cílem není hádat se o OOS metrikách na základě několika datových bodů, ale poukázat na to, že stávající předpovědi jsou křehké a nemodelují řadu různých inovací. (Kolem X se pohybuje pár dalších sigmoidu, ale nezdá se, že by používaly náš navrhovaný produktový sigmoid, takže nemohu říct, co se tam děje...) Omlouvám se za svůj nevýrazný předchozí příspěvek – doufáme, že si lidé článek přečtou!

Top

Hodnocení

Oblíbené