Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Min favorittartikkel i 2026 så langt 🔥
De tok On-Policy Distillation (altså blogginnlegget Thinking Machines), men viste så at politikken kan være både lærerens og elevens modell.
Ideen er å betinge læreren ut fra en gyllen bane, og deretter trene på de betingede logprobene til samme modell. Det sprø er at du bokstavelig talt kan betinge læreren på hva som helst!!
Dette åpner opp en hel Pandoras eske for bro-promptoptimalisering/ICL + vektoptimalisering som jeg er veldig begeistret for for kontinuerlig læring
Forfattere: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology

Topp
Rangering
Favoritter
