今日のフロンティア推論モデルの背後にあるレシピは、AlphaGoと驚くほど似ています。 1) 大量の人間のデータを模倣すること 2) スケール推論計算で推論が上手くなります(当時はモンテカルロツリーサーチでしたが、現在はChain of Thoughtです) 3) 真似を超えて強化学習(RL)を活用する