LLM エージェントを OOD 環境で成功させたいですか? SPA(セルフプレイエージェント)で難しいケースに取り組みます。余分なデータ、ツール、またはより強力なモデルはありません。純粋なセルフプレイ。 まず、セルフプレイを介してワールドモデルを内面化し、次にRLで勝つ方法を学びます。 子供が環境で遊んで「これをしたらどうなるか」を学ぶように。 以下に、次の調査結果を示します。OOD 環境の何が問題なのでしょうか?セルフプレイを成功させる重要な要素は何ですか? (1/8)