A receita por trás dos modelos de raciocínio de fronteira de hoje é surpreendentemente semelhante ao AlphaGo: 1) Imitar grandes quantidades de dados humanos 2) Escalar o cálculo de inferência para raciocinar melhor (naquela época era a Busca em Árvore de Monte Carlo, hoje é Chain of Thought) 3) Usar RL para ir além da imitação