Aplicamos la Investigación Automática de Karpathy al ajedrez a través de Opal, y los resultados fueron sólidos. En lugar de depender de libros de aperturas o teoría memorizada, el sistema aprende directamente de los resultados. El agente juega partidas contra sí mismo, evalúa posiciones con un motor, actualiza la política y vuelve a ejecutar el ciclo. Con el tiempo, ese ciclo de retroalimentación se acumula. Auto-juego -> Evaluación -> Actualización de política -> Repetir. El resultado fue una mejora de +596 ELO. Cuando el ciclo de aprendizaje es ajustado, la mejora se acelera rápidamente.