Aplicamos Karpathy Auto Research ao xadrez através da Opal, e os resultados foram fortes. Em vez de depender de livros de abertura ou teoria decorada, o sistema aprende diretamente com os resultados. O agente joga partidas contra si mesmo, avalia posições com um motor, atualiza a política e executa o loop novamente. Com o tempo, esse ciclo de feedback se acumula. Jogo próprio -> Avaliação -> Atualização de política -> Repetir. O resultado foi uma melhoria de +596 no ELO. Quando o ciclo de aprendizado está apertado, a melhoria acelera rapidamente.