Bài báo yêu thích của tôi trong năm 2026 cho đến nay 🔥 Họ đã lấy On-Policy Distillation (tức là bài viết trên blog Thinking Machines), nhưng sau đó cho thấy rằng chính sách có thể vừa là mô hình giáo viên vừa là mô hình học sinh. Ý tưởng là điều kiện hóa giáo viên dựa trên một quỹ đạo vàng, và sau đó đào tạo trên các logprobs đã được điều kiện hóa của cùng một mô hình. Phần điên rồ là, bạn có thể điều kiện hóa giáo viên trên bất cứ điều gì!! Điều này mở ra một hộp pandora hoàn toàn về tối ưu hóa prompt cầu nối/ICL + tối ưu hóa trọng số mà tôi rất hào hứng cho việc học liên tục. Tác giả: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology