我想做一些澄清,我们认为在我们的论文中已经很清楚,但在我最初的帖子中并不明确(重新分析 @METR_Evals 的数据)。 我们的贡献是将进展视为围绕不同创新的 sigmoid 的乘积。根据 METR 数据,我们将其分为基础能力(数据/模型大小)和推理的改进。 我们展示了这个乘积在我们观察到的小数据集上提供了与指数增长相似的 *样本内* 拟合。然而,含义却截然不同!在我们的模型下,我们需要持续的创新(类似于推理)才能看到持续的指数进展。 这并不是说我们排除了指数进展,或者我们的 sigmoid 乘积是正确的模型。只是想说有几个点和多种可能的基础模型,其含义截然不同。 我们的 sigmoid 乘积拟合在保留 GPT 5.2 和/或 Gemini 3 pro 时实际上拟合得很好。当额外保留 Claude Opus 4.5 时,我们的表现确实变差,但仍然是合理的。我们的目标不是在少数数据点上争论 OOS 指标,而是指出现有的预测是脆弱的,并且没有建模不同创新的继承关系。(在 X 上还有其他几个拟合,但它们似乎没有使用我们提出的乘积 sigmoid,所以我无法说那里的情况…) 我为我之前不够细致的帖子道歉——我们希望人们能阅读这篇论文!