熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我想做幾個澄清,我們認為在我們的論文中已經很清楚,但在我最初的帖子中並不明確(重新分析 @METR_Evals 的數據)。
我們的貢獻是將進展視為圍繞不同創新而形成的 sigmoid 的乘積。根據 METR 數據,我們將其拆分為基礎能力(數據/模型大小)和推理的改進。
我們顯示這個乘積提供了與我們觀察到的小數據集相似的 *in-sample* 擬合,與指數增長相似。然而,這些含義是非常不同的!根據我們的模型,我們需要持續的創新(類似於推理)才能看到持續的指數進展。
這並不是說我們排除了指數進展,或者我們的 sigmoid 乘積是正確的模型。這只是說有幾個點和多個可能的潛在模型,具有非常不同的含義。
我們的乘積 sigmoid 擬合在保留 GPT 5.2 和/或 Gemini 3 pro 時實際上擬合得很好。當額外保留 Claude Opus 4.5 時,我們的表現確實變差,但仍然是合理的。我們的目標不是在少數數據點上爭論 OOS 指標,而是指出現有的預測是脆弱的,並且沒有建模不同創新的繼承。(在 X 上還有幾個其他擬合,但它們似乎沒有使用我們提出的乘積 sigmoid,所以我無法說那裡發生了什麼……)
我為我之前不夠細緻的帖子道歉——我們希望人們能閱讀這篇論文!
熱門
排行
收藏
