A receita por trás dos modelos de raciocínio fronteiriço atuais é surpreendentemente semelhante à do AlphaGo: 1) Imitar grandes quantidades de dados humanos 2) Cálculo de inferência de escala para raciocinar melhor (naquela época era a Busca em Árvores de Monte Carlo, hoje é a Cadeia de Pensamento) 3) Usar o RL para ir além da imitação