一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我想做幾個澄清，我們認為在我們的論文中已經很清楚，但在我最初的帖子中並不明確（重新分析 @METR_Evals 的數據）。我們的貢獻是將進展視為圍繞不同創新而形成的 sigmoid 的乘積。根據 METR 數據，我們將其拆分為基礎能力（數據/模型大小）和推理的改進。我們顯示這個乘積提供了與我們觀察到的小數據集相似的 *in-sample* 擬合，與指數增長相似。然而，這些含義是非常不同的！根據我們的模型，我們需要持續的創新（類似於推理）才能看到持續的指數進展。這並不是說我們排除了指數進展，或者我們的 sigmoid 乘積是正確的模型。這只是說有幾個點和多個可能的潛在模型，具有非常不同的含義。我們的乘積 sigmoid 擬合在保留 GPT 5.2 和/或 Gemini 3 pro 時實際上擬合得很好。當額外保留 Claude Opus 4.5 時，我們的表現確實變差，但仍然是合理的。我們的目標不是在少數數據點上爭論 OOS 指標，而是指出現有的預測是脆弱的，並且沒有建模不同創新的繼承。（在 X 上還有幾個其他擬合，但它們似乎沒有使用我們提出的乘積 sigmoid，所以我無法說那裡發生了什麼……）我為我之前不夠細緻的帖子道歉——我們希望人們能閱讀這篇論文！