Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un model puternic poate deveni mai slab la învățarea lucrurilor dificile pe măsură ce capătă mai multă încredere... Pentru că răspunsurile greșite sunt împinse atât de jos, gradientele practic dispar
WMSS răstoarnă bucla: antrenezi modelul puternic împotriva propriului său punct de control anterior, mai slab, nu doar împotriva predicțiilor actuale
Punctul de control slab încă atribuie probabilitate netrivială răspunsurilor plauzibile, dar greșite... Antrenamentul pe acea distribuție mai blândă forțează modelul puternic să separe mereu corectul de aproape corect, în loc să șlefuiască ceea ce deja crede
Lucrarea raportează progrese semnificative la matematică + programare, cu creșteri mai mari pe seturi mai dificile... Dar a fost testat în jurul parametrilor 4b până la 8b, nu la scara frontieră (deci nu tratez asta ca fiind stabilit).
Implicația subdiscutată: Fiecare laborator serios are deja un cimitir de puncte intermediare de control din rundele anterioare... Dacă învățarea condusă de slăbiciune se menține la 70B+, punctele de control "irosite" devin o resursă de antrenament pe care deja o ai
Modelele puternice stagnează când încetează să se îndoiască de ele însele... O cale practică de urmat ar putea fi să-i faci să se certe cu sinele 👀 lor din trecut
Link către lucrare: arxiv. org/abs/2602.08222

Limită superioară
Clasament
Favorite
