Resep di balik model penalaran perbatasan saat ini secara mengejutkan mirip dengan AlphaGo: 1) Tiru data manusia dalam jumlah besar 2) Skala inferensi komputasi untuk bernalar lebih baik (saat itu adalah Monte Carlo Tree Search, hari ini Chain of Thought) 3) Gunakan RL untuk melampaui peniruan