Receptet bakom dagens frontier-resonemangsmodeller är förvånansvärt likt AlphaGo: 1) Imitera stora mängder mänsklig data 2) Skalinferens beräkna för att resonera bättre (då var det Monte Carlo Tree Search, idag är det Chain of Thought) 3) Använd RL för att gå bortom imitation