La recette derrière les modèles de raisonnement de pointe d'aujourd'hui est étonnamment similaire à AlphaGo : 1) Imiter de grandes quantités de données humaines 2) Élargir le calcul d'inférence pour mieux raisonner (à l'époque, c'était la recherche d'arbre de Monte Carlo, aujourd'hui c'est Chain of Thought) 3) Utiliser le RL pour aller au-delà de l'imitation