Mijn favoriete paper van 2026 tot nu toe 🔥 Ze hebben On-Policy Distillation genomen (d.w.z. de blogpost van Thinking Machines), maar toonden toen aan dat het beleid zowel het lerende als het onderwijzende model kan zijn. Het idee is om de leraar te conditioneren op een gouden traject, en vervolgens te trainen op de geconditioneerde logprobs van hetzelfde model. Het gekke is, je kunt de leraar letterlijk op alles conditioneren!! Dit opent een hele doos van Pandora van het optimaliseren van prompts/ICL + gewichtsoptimalisatie waar ik erg enthousiast over ben voor continu leren. Auteurs: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology