熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
強大的模型在學習困難的東西時,隨著自信心的增強可能會變得更糟.. 因為它的錯誤答案被壓得非常低,以至於梯度基本上消失了
wmss 反轉了這個循環:你訓練強大的模型對抗它自己早期的、較弱的檢查點,而不僅僅是當前的預測
弱檢查點仍然對合理但錯誤的答案分配非平凡的概率.. 在這種較柔和的分佈上進行訓練迫使強大的模型繼續區分正確與幾乎正確的答案,而不是打磨它已經相信的東西
論文報告在數學和編碼上有意義的增長,對於更難的集合提升更大.. 但它是在 40 億到 80 億參數之間進行測試的,而不是前沿規模(所以我不認為這已經定論)
未被充分討論的含義:每個認真的實驗室已經擁有過去運行中中間檢查點的墓地.. 如果弱驅動學習在 700 億以上有效,“浪費”的檢查點將成為你已經擁有的訓練資源
強大的模型在停止懷疑自己時會達到平臺.. 一種實際的前進方式可能是讓它們與過去的自己辯論 👀
論文鏈接:arxiv. org/abs/2602.08222

熱門
排行
收藏
