這篇論文幾乎好到我不想分享它 忽略 OpenClaw 的點擊誘餌,OPD + RL 在真實的代理任務上取得了顯著的結果,這非常令人興奮,並使我們不再需要可驗證的獎勵 作者:@YinjieW2024 Xuyang Chen, Xialong Jin, @MengdiWang10 @LingYang_PU