一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

强大的模型在学习困难内容时可能会变得更糟，因为它的错误答案被压得很低，梯度基本上消失了。 wmss 翻转了这个循环：你训练强大的模型与它自己早期的、较弱的检查点，而不仅仅是当前的预测。弱检查点仍然会给合理但错误的答案分配非平凡的概率……在这种较软的分布上训练迫使强大的模型继续区分正确与几乎正确，而不是打磨它已经相信的内容。论文报告在数学和编码方面有显著的提升，在更难的集合上提升更大……但它是在 40 亿到 80 亿参数的范围内测试的，而不是前沿规模（所以我不认为这已经定论）。一个被讨论较少的含义是：每个严肃的实验室已经有一堆来自过去运行的中间检查点的“墓地”……如果弱驱动学习在 700 亿以上有效，“浪费”的检查点就成为你已经拥有的训练资源。强大的模型在停止怀疑自己时会达到平台期……一种实际的前进方式可能是让它们与过去的自己争论 👀 论文链接：arxiv. org/abs/2602.08222