2026年これまで🔥で一番好きな論文 彼らはOn-Policy Distillation(つまりThinking Machinesのブログ記事)を取り上げましたが、その後、ポリシーが教師モデルと生徒モデルの両方になり得ることを示しました。 この考え方は、教師を黄金軌道に条件付け、同じモデルの条件付き対数プロブで訓練することです。驚くべきことに、先生は文字通り何にでも条件付けできるんです!! これにより、プロンプト最適化とICL+重みの最適化を橋渡しするパンドラの箱が開けられ、継続的な学習にとてもワクワクしています 著者:@IdanShenfeld @MehulDamani2 ヨナス・ヒュボッター@pulkitology