一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

解读这个方法的方式是，在后期训练后，你的权重在所有预训练期间看到的任务之间是相对均匀分布的（模型已经看过所有任务，因此它们将模型拉向它们）。所以这个方法所做的就是扰动权重，看看哪些扰动使网络更接近任务特定的权重。这就像是非常便宜的 lora。这也与观察到的现象相关，即后期训练并没有增加知识，而只是雕刻了预训练分布。

扰动权重实际上类似于高温下的随机展开。我确实认为这可以是迭代的（像 grpo）用大半径扰动权重 -> 选择表现更好的 -> 不断减小半径这 *应该* 提高任务准确性 @yule_gan 你试过这个吗？

264