Przepis na dzisiejsze modele rozumowania na granicy jest zaskakująco podobny do AlphaGo: 1) Imituj dużą ilość danych ludzkich 2) Zwiększ moc obliczeniową wnioskowania, aby lepiej rozumować (kiedyś był to Monte Carlo Tree Search, dzisiaj to Chain of Thought) 3) Użyj RL, aby wyjść poza imitację