Este artigo é quase bom demais para eu não querer compartilhá-lo Ignorando o clickbait do OpenClaw, OPD + RL em tarefas reais de agentes com resultados significativos é muito empolgante e nos afasta da necessidade de recompensas verificáveis Autores: @YinjieW2024 Xuyang Chen, Xialong Jin, @MengdiWang10 @LingYang_PU