Este artículo es casi tan bueno que no quería compartirlo Ignora el clickbait de OpenClaw, OPD + RL en tareas reales de agentes con resultados significativos es muy emocionante y nos aleja de la necesidad de recompensas verificables Autores: @YinjieW2024 Xuyang Chen, Xialong Jin @MengdiWang10 @LingYang_PU