Måten å tolke det på er at etter trening er vektene dine omtrent like langt fra alle oppgavene den så under fortreningen (modellen har sett alle oppgavene, så de har trukket den mot seg). Så alt denne metoden gjør, er å forstyrre vektene og se hvilke forstyrrelser som bringer nettverket nærmere oppgavespesifikke vekter. Det er som en veldig billig lora Dette henger også sammen med observasjonen om at ettertrening ikke tilfører kunnskap, men bare meisler ut fordelingen av fortrening
Yulu Gan
Yulu Gan13. mars, 23:41
Å bare legge til Gaussisk støy i LLM-er (ett steg – ingen iterasjoner, ingen læringsrate, ingen gradienter) og integrere dem kan oppnå ytelse som er sammenlignbar med eller til og med bedre enn standard GRPO/PPO på matematisk resonnement, koding, skriving og kjemioppgaver. Vi kaller denne algoritmen RandOpt. For å verifisere at dette ikke er begrenset til spesifikke modeller, testet vi det på Qwen, Llama, OLMo3 og VLM-er. Hva ligger bak dette? Vi finner at i det Gaussiske søkemiljøet rundt forhåndstrente LLM-er, er ulike oppgaveeksperter tett fordelt — et regime vi kaller nevrale krat. Artikkel: Kode: Nettside:
Forstyrrende vekter er egentlig analogt med tilfeldige utrullinger ved høy temperatur. Jeg tror dette kan være iterativt (som GRPO) perturbvekter med stor radius -> velger bedre utøvere -> fortsetter å redusere radius dette *bør* øke oppgavenøyaktigheten @yule_gan prøvde du dette?
25