Рецепт сучасних моделей фронтирного мислення дивовижно схожий на AlphaGo: 1) Імітувати великі обсяги людських даних 2) Масштабне висновки краще обчислюють для логіки (тоді це був Monte Carlo Tree Search, сьогодні це Chain of Thought) 3) Використовуйте RL, щоб вийти за межі імітації