Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meu artigo favorito de 2026 até agora 🔥
Eles pegaram On-Policy Distillation (ou seja, o post do blog Thinking Machines), mas depois mostraram que a política pode ser tanto o modelo do professor quanto do aluno.
A ideia é condicionar o professor a seguir uma trajetória dourada e então treinar nos logprobs condicionados do mesmo modelo. A parte louca é que você pode literalmente condicionar o professor a qualquer coisa!!
Isso abre toda uma caixa de Pandora de otimização de prompts/ICL + otimização de peso, que me empolga muito para o aprendizado contínuo
Autores: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology

Melhores
Classificação
Favoritos
