Suosikkiartikkelini vuodelta 2026 tähän mennessä 🔥 He ottivat On-Policy Distillation -kurssin (eli Thinking Machines -blogikirjoituksen), mutta osoittivat sitten, että politiikka voi olla sekä opettajan että opiskelijan malli. Ajatuksena on ehdollistaa opettaja kultaisella radalla ja sitten harjoitella saman mallin ehdollisilla logprobeilla. Hullua on se, että opettajan voi kirjaimellisesti ehdollistaa mihin tahansa!! Tämä avaa kokonaisen pandoran lippaan sillan prompt-optimointiin/ICL + painon optimointiin, josta olen todella innoissani jatkuvasta oppimisesta Kirjoittajat: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology