Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mon article préféré de 2026 jusqu'à présent 🔥
Ils ont pris la Distillation On-Policy (c'est-à-dire le billet de blog de Thinking Machines), mais ont ensuite montré que la politique peut être à la fois le modèle enseignant et le modèle étudiant.
L'idée est de conditionner l'enseignant sur une trajectoire dorée, puis de s'entraîner sur les logprobs conditionnés du même modèle. La partie folle, c'est que vous pouvez littéralement conditionner l'enseignant sur n'importe quoi !!
Cela ouvre toute une boîte de Pandore d'optimisation de prompt de liaison/ICL + optimisation de poids qui m'excite beaucoup pour l'apprentissage continu.
Auteurs : @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology

Meilleurs
Classement
Favoris
