一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

解釋這一點的方法是，在後訓練之後，你的權重在所有它在預訓練期間看到的任務之間是相對等距的（模型已經看過所有任務，因此它們將模型拉向它們）。所以這個方法所做的就是擾動權重，看看哪些擾動使網絡更接近任務特定的權重。這就像是非常便宜的 lora。這也與觀察到的事實相連，即後訓練並不增加知識，而只是雕刻預訓練分佈。

擾動權重實際上類似於高溫下的隨機展開。我確實認為這可以是迭代的（像 grpo）擾動權重，半徑較大 -> 選擇表現較好的者 -> 持續減小半徑這 *應該* 提高任務準確性 @yule_gan 你試過這個嗎？

466