强大的模型在学习困难内容时可能会变得更糟,因为它的错误答案被压得很低,梯度基本上消失了。 wmss 翻转了这个循环:你训练强大的模型与它自己早期的、较弱的检查点,而不仅仅是当前的预测。 弱检查点仍然会给合理但错误的答案分配非平凡的概率……在这种较软的分布上训练迫使强大的模型继续区分正确与几乎正确,而不是打磨它已经相信的内容。 论文报告在数学和编码方面有显著的提升,在更难的集合上提升更大……但它是在 40 亿到 80 亿参数的范围内测试的,而不是前沿规模(所以我不认为这已经定论)。 一个被讨论较少的含义是:每个严肃的实验室已经有一堆来自过去运行的中间检查点的“墓地”……如果弱驱动学习在 700 亿以上有效,“浪费”的检查点就成为你已经拥有的训练资源。 强大的模型在停止怀疑自己时会达到平台期……一种实际的前进方式可能是让它们与过去的自己争论 👀 论文链接:arxiv. org/abs/2602.08222