La receta detrás de los modelos de razonamiento de frontera de hoy es sorprendentemente similar a AlphaGo: 1) Imitar grandes cantidades de datos humanos 2) Escalar la computación de inferencia para razonar mejor (en aquel entonces era Búsqueda de Árbol de Monte Carlo, hoy es Chain of Thought) 3) Usar RL para ir más allá de la imitación