Lucrarea mea preferată din 2026 până acum 🔥 Au luat On-Policy Distillation (adică postarea pe blogul Thinking Machines), dar apoi au arătat că politica poate fi atât modelul profesorului, cât și al elevului. Ideea este de a condiționa profesorul de pe traiectoria de aur, apoi de a antrena pe logprobele condiționate ale aceluiași model. Partea nebună este că poți literalmente condiționa profesorul de orice!! Aceasta deschide o cutie Pandora întreagă de optimizare a prompturilor/ICL + optimizare a greutății, care mă entuziasmează foarte mult pentru învățare continuă Autori: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology