Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mi artículo favorito de 2026 hasta ahora 🔥
Tomaron la Destilación On-Policy (es decir, la publicación del blog de Thinking Machines), pero luego mostraron que la política puede ser tanto el modelo maestro como el modelo estudiante.
La idea es condicionar al maestro a partir de una trayectoria dorada, y luego entrenar con los logprobs condicionados del mismo modelo. La parte loca es que, ¡literalmente puedes condicionar al maestro sobre cualquier cosa!!
Esto abre toda una caja de Pandora de optimización de prompts de puente/ICL + optimización de pesos que me emociona mucho para el aprendizaje continuo.
Autores: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology

Parte superior
Clasificación
Favoritos
