La receta detrás de los modelos de razonamiento pioneros actuales es sorprendentemente similar a la de AlphaGo: 1) Imitar grandes cantidades de datos humanos 2) Cálculo de inferencia a escala para razonar mejor (en aquel entonces era Búsqueda de Árbol de Montecarlo, hoy es Cadena de Pensamiento) 3) Usar el RL para ir más allá de la imitación