Oppskriften bak dagens frontier reasoning-modeller er overraskende lik AlphaGo: 1) Etterligne store mengder menneskelig data 2) Skalering av inferensberegning for å resonnere bedre (den gang var det Monte Carlo Tree Search, i dag er det Chain of Thought) 3) Bruke RL for å gå utover imitasjon