Můj nejoblíbenější článek roku 2026 zatím 🔥 Vzali On-Policy Distillation (tj. blogový příspěvek Thinking Machines), ale pak ukázali, že politika může být jak model učitele, tak studenta. Cílem je podmiňovat učitele podle zlaté trajektorie a pak trénovat na podmíněných logprobech stejného modelu. To nejšílenější je, že učitele můžete doslova naučit na cokoli!! To otevírá celou Pandorinu skříňku mezi optimalizací promptů/ICL + optimalizací váh, na kterou se velmi těším kvůli neustálému učení Autoři: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology