Deus, o intelecto supremo dos moradores do RL têm cozinhado muito Um grande gargalo no aprendizado contínuo é que não temos uma forma geral de comparar e avaliar métodos entre domínios de tarefas Acho que @carnot_cyclist pode ter resolvido isso
Não vou dar spoiler porque quero que ele escreva um post incrível sobre isso. Mas uau, é um formalismo muito, muito limpo que pode ser usado para tantas coisas diferentes, e ele tem alguns bons resultados experimentais iniciais para mostrar isso
189