Makalah favorit saya tahun 2026 sejauh ini 🔥 Mereka mengambil On-Policy Distilation (yaitu posting blog Thinking Machines), tetapi kemudian menunjukkan bahwa kebijakan tersebut dapat menjadi model guru dan siswa. Idenya adalah untuk mengkondisikan guru dari lintasan emas, dan kemudian melatih logprobs yang dikondisikan dari model yang sama. Bagian gilanya adalah, Anda benar-benar dapat mengkondisikan guru pada apa saja!! Ini membuka seluruh kotak pandora pengoptimalan prompt jembatan/ICL + pengoptimalan bobot yang sangat saya sukai untuk pembelajaran berkelanjutan Penulis: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology