这篇论文几乎好得让我不想分享它 忽略 OpenClaw 的点击诱饵,OPD + RL 在真实的代理任务上取得了显著的结果,这非常令人兴奋,并使我们不再需要可验证的奖励 作者:@YinjieW2024 Xuyang Chen, Xialong Jin, @MengdiWang10 @LingYang_PU