熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
解釋這一點的方法是,在後訓練之後,你的權重在所有它在預訓練期間看到的任務之間是相對等距的(模型已經看過所有任務,因此它們將模型拉向它們)。所以這個方法所做的就是擾動權重,看看哪些擾動使網絡更接近任務特定的權重。這就像是非常便宜的 lora。
這也與觀察到的事實相連,即後訓練並不增加知識,而只是雕刻預訓練分佈。

3月13日 23:41
僅僅向 LLMs 添加高斯噪聲(一步—無需迭代、無需學習率、無需梯度)並進行集成,就能在數學推理、編碼、寫作和化學任務上達到與標準 GRPO/PPO 相當甚至更好的性能。我們稱這個算法為 RandOpt。
為了驗證這並不僅限於特定模型,我們在 Qwen、Llama、OLMo3 和 VLMs 上進行了測試。
這背後的原因是什麼?我們發現,在預訓練 LLMs 的高斯搜索鄰域中,各種任務專家密集分佈——這種狀態我們稱之為神經叢林。
論文:
代碼:
網站:

擾動權重實際上類似於高溫下的隨機展開。我確實認為這可以是迭代的(像 grpo)
擾動權重,半徑較大 -> 選擇表現較好的者 -> 持續減小半徑
這 *應該* 提高任務準確性
@yule_gan 你試過這個嗎?
466
熱門
排行
收藏
