DApp Store | Web3 Hub for hendelser og spill

Populære emner

Måten å tolke det på er at etter trening er vektene dine omtrent like langt fra alle oppgavene den så under fortreningen (modellen har sett alle oppgavene, så de har trukket den mot seg). Så alt denne metoden gjør, er å forstyrre vektene og se hvilke forstyrrelser som bringer nettverket nærmere oppgavespesifikke vekter. Det er som en veldig billig lora Dette henger også sammen med observasjonen om at ettertrening ikke tilfører kunnskap, men bare meisler ut fordelingen av fortrening

Forstyrrende vekter er egentlig analogt med tilfeldige utrullinger ved høy temperatur. Jeg tror dette kan være iterativt (som GRPO) perturbvekter med stor radius -> velger bedre utøvere -> fortsetter å redusere radius dette *bør* øke oppgavenøyaktigheten @yule_gan prøvde du dette?

25

Topp

Rangering

Favoritter