Dios, los residentes de prime intellect RL han estado trabajando muy duro un gran obstáculo en el aprendizaje continuo es que no tenemos una forma general de comparar y evaluar métodos a través de dominios de tareas creo que @carnot_cyclist puede haber resuelto esto
no quiero arruinarlo porque quiero que escriba un gran artículo de blog sobre ello. pero wow, es un formalismo realmente limpio que se puede usar para tantas cosas diferentes, y tiene algunos buenos resultados experimentales tempranos para mostrarlo.
190