Creo que el RL con recompensas verificables será cada vez más importante para empujar a los LLM hacia su propio "momento AlphaZero". Probablemente comenzará con la codificación y luego se extenderá a matemáticas, física y otros ámbitos donde los modelos pueden autoexplorarse, descubrir soluciones fuera de distribución que los humanos quizá nunca imaginarían y verificarlas usando una señal de recompensa absoluta (0/1). Esto también me recuerda a @elonmusk hablando de un futuro en el que los programas podrían generarse directamente como binarios, sin pasar por el proceso tradicional de compilación. Eso podría ser posible si los LLMs pueden generar código binario y luego ejecutarlo directamente contra una recompensa verificable.