Acho que o RL com recompensas verificáveis se tornará cada vez mais importante para levar os LLMs ao seu próprio "momento AlphaZero". Provavelmente começará com programação, depois se estenderá para matemática, física e outras áreas onde os modelos podem se autoexplorar, descobrir soluções fora da distribuição que os humanos talvez nunca imaginem e verificá-las usando um sinal de recompensa absoluto (0/1). Isso também me lembra @elonmusk falando sobre um futuro em que programas poderiam ser gerados diretamente como binários, sem passar pelo processo tradicional de compilação. Isso pode até ser possível se os LLMs conseguirem gerar código binário e executá-lo diretamente contra uma recompensa verificável.