DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Acho que o RL com recompensas verificáveis se tornará cada vez mais importante para levar os LLMs ao seu próprio "momento AlphaZero". Provavelmente começará com programação, depois se estenderá para matemática, física e outras áreas onde os modelos podem se autoexplorar, descobrir soluções fora da distribuição que os humanos talvez nunca imaginem e verificá-las usando um sinal de recompensa absoluto (0/1). Isso também me lembra @elonmusk falando sobre um futuro em que programas poderiam ser gerados diretamente como binários, sem passar pelo processo tradicional de compilação. Isso pode até ser possível se os LLMs conseguirem gerar código binário e executá-lo diretamente contra uma recompensa verificável.

Melhores

Classificação

Favoritos