Rețeta din spatele modelelor de raționament frontieră de astăzi este surprinzător de similară cu AlphaGo: 1) Imitarea unor cantități mari de date umane 2) Calculul inferenței la scară pentru a raționa mai bine (pe atunci era Monte Carlo Tree Search, astăzi este Chain of Thought) 3) Folosirea RL-ului pentru a depăși imitația