Рецепт, лежащий в основе современных моделей фронтального рассуждения, удивительно похож на AlphaGo: 1) Имитировать большие объемы человеческих данных 2) Масштабировать вычисления вывода для лучшего рассуждения (тогда это был метод Монте-Карло, сегодня это Chain of Thought) 3) Использовать RL, чтобы выйти за пределы имитации