Meu artigo favorito de 2026 até agora 🔥 Eles pegaram On-Policy Distillation (ou seja, o post do blog Thinking Machines), mas depois mostraram que a política pode ser tanto o modelo do professor quanto do aluno. A ideia é condicionar o professor a seguir uma trajetória dourada e então treinar nos logprobs condicionados do mesmo modelo. A parte louca é que você pode literalmente condicionar o professor a qualquer coisa!! Isso abre toda uma caixa de Pandora de otimização de prompts/ICL + otimização de peso, que me empolga muito para o aprendizado contínuo Autores: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology