Min favoritartikel hittills 🔥 2026 De tog On-Policy Distillation (dvs. blogginlägget Thinking Machines), men visade sedan att policyn kan vara både lärarens och elevens modell. Idén är att konditionera läraren från en gyllene bana och sedan träna på de betingade logproberna i samma modell. Det galna är att man bokstavligen kan träna läraren på vad som helst!! Detta öppnar upp en hel Pandoras ask av optimering av bryggpromptar/ICL + viktoptimering som jag är väldigt entusiastisk över för kontinuerligt lärande Författare: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology