Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Halusin tehdä muutaman selvennyksen, jotka uskomme olevan selkeitä artikkelissamme, mutta eivät alkuperäisessä viestissäni (@METR_Evals datan uudelleenanalysointi).
Meidän panoksemme on asettaa edistys sigmoidien moninkertaiseksi tuotoksi eri innovaatioiden ympärillä. METR-datan perusteella jaoimme sen perusominaisuuksien (data/mallin koko) ja päättelykykyjen parannuksiin.
Näytämme, että tämä tuote tarjoaa vastaavan *otospohjaisen* sovituksen pieniin tietoaineistoihin, joita havaitsemme eksponentiaalisena kasvuna. Kuitenkin seuraukset ovat hyvin erilaiset! Mallimme mukaan tarvitsisimme jatkuvia innovaatioita (kuten päättelyä) nähdäksemme eksponentiaalista kehitystä.
Tämä ei tarkoita, että sulkeisimme pois eksponentiaalisen edistyksen, tai että sigmoidien tuote olisi oikea malli. Voidaan yksinkertaisesti sanoa, että on vähän seikkoja ja useita mahdollisia taustamalleja, joilla on hyvin erilaiset seuraukset.
Tuotteemme sigmoid istuvuus sopii itse asiassa todella hyvin, kun pitää GPT 5.2:ta ja/tai Gemini 3 Pro:ta. Näytämme huonommilta, kun pidämme lisäksi Claude Opus 4.5:ttä, mutta se on silti uskottavaa. Tavoitteemme ei ole kiistellä OOS-mittareista muutamassa datapisteessä, vaan osoittaa, että olemassa olevat ennusteet ovat hauraita eivätkä mallinna eri innovaatioiden peräkkäistä. (X:n ympärillä on pari muuta sovitusta, mutta he eivät näytä käyttävän ehdotettuamme tuotetta sigmoidia, joten en osaa sanoa, mitä siellä tapahtuu...)
Pahoittelen aiempaa hienovaraista kirjoitustani – toivomme, että ihmiset lukevat artikkelin!
Johtavat
Rankkaus
Suosikit
