Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O meu artigo favorito de 2026 até agora 🔥
Eles pegaram na Destilação On-Policy (ou seja, o post do blog Thinking Machines), mas depois mostraram que a política pode ser tanto o modelo professor como o modelo aluno.
A ideia é condicionar o professor a partir de uma trajetória dourada e, em seguida, treinar com os logprobs condicionados do mesmo modelo. A parte louca é que você pode literalmente condicionar o professor a qualquer coisa!!
Isto abre uma caixa de pandora inteira de otimização de prompts de ligação/ICL + otimização de pesos que estou muito entusiasmado para a aprendizagem contínua.
Autores: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology

Top
Classificação
Favoritos
