Mon article préféré de 2026 jusqu'à présent 🔥 Ils ont pris la Distillation On-Policy (c'est-à-dire le billet de blog de Thinking Machines), mais ont ensuite montré que la politique peut être à la fois le modèle enseignant et le modèle étudiant. L'idée est de conditionner l'enseignant sur une trajectoire dorée, puis de s'entraîner sur les logprobs conditionnés du même modèle. La partie folle, c'est que vous pouvez littéralement conditionner l'enseignant sur n'importe quoi !! Cela ouvre toute une boîte de Pandore d'optimisation de prompt de liaison/ICL + optimisation de poids qui m'excite beaucoup pour l'apprentissage continu. Auteurs : @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology