いくつかの明確化をしたいと思います。これは私たちの論文では明確だったと思いますが、元の投稿(@METR_Evalsデータの再分析)では明確ではありませんでした。 私たちの貢献は、進歩をさまざまなイノベーションの周りのシグモイドの乗算的積として考えることにあります。METRデータを基に、基本能力(データ/モデルサイズ)の改善と推論に分けました。 この製品は、指数関数的成長として観察される小規模データセットに対しても同様の*標本内*フィットを提供することを示しました。しかし、その影響は全く異なります!私たちのモデルでは、指数関数的な進歩を続けるためには、継続的なイノベーション(推論に似た)が必要です。 これは指数関数的な進歩を否定するわけでも、私たちのシグモイドの積が正しいモデルだと言っているわけでもありません。単純に言えば、いくつかの点があり、複数の潜在的なモデルが存在し、それぞれ非常に異なる意味を持つということです。 私たちの製品のシグモイドフィットは、GPT 5.2やGemini 3 Proを使ったときに非常によく合っています。クロード作品4.5を挙げると見た目は悪くなりますが、それでも十分に説得力があります。私たちの目標は、いくつかのデータポイントでOOS指標を争うことではなく、既存の予測が脆弱であり、さまざまなイノベーションの連続をモデル化していないことを指摘することです。(X周辺には他にもいくつかのフィットがありますが、提案している製品のシグモイドは使われていないようで、何が起きているのかはわかりません...) 先ほどの投稿があまり詳しくなくて申し訳ありません。皆さんにこの論文を読んでいただければ幸いです!