Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mi artículo favorito de 2026 hasta ahora 🔥
Tomaron On-Policy Distillation (es decir, la entrada del blog Thinking Machines), pero luego demostraron que la política puede ser tanto el modelo del profesor como del alumno.
La idea es condicionar al profesor a partir de una trayectoria dorada y luego entrenar con los logprobs condicionados del mismo modelo. Lo más loco es que literalmente puedes condicionar al profesor con cualquier cosa.
Esto abre toda una caja de Pandora de optimización de prompts/ICL + optimización de peso, que me entusiasma mucho para el aprendizaje continuo
Autores: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology

Populares
Ranking
Favoritas
