O meu artigo favorito de 2026 até agora 🔥 Eles pegaram na Destilação On-Policy (ou seja, o post do blog Thinking Machines), mas depois mostraram que a política pode ser tanto o modelo professor como o modelo aluno. A ideia é condicionar o professor a partir de uma trajetória dourada e, em seguida, treinar com os logprobs condicionados do mesmo modelo. A parte louca é que você pode literalmente condicionar o professor a qualquer coisa!! Isto abre uma caixa de pandora inteira de otimização de prompts de ligação/ICL + otimização de pesos que estou muito entusiasmado para a aprendizagem contínua. Autores: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology