热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
解读这个方法的方式是,在后期训练后,你的权重在所有预训练期间看到的任务之间是相对均匀分布的(模型已经看过所有任务,因此它们将模型拉向它们)。所以这个方法所做的就是扰动权重,看看哪些扰动使网络更接近任务特定的权重。这就像是非常便宜的 lora。
这也与观察到的现象相关,即后期训练并没有增加知识,而只是雕刻了预训练分布。

3月13日 23:41
简单地向LLM添加高斯噪声(一步——没有迭代,没有学习率,没有梯度)并将它们集成,可以在数学推理、编码、写作和化学任务上实现与标准GRPO/PPO相当甚至更好的性能。我们称这个算法为RandOpt。
为了验证这并不限于特定模型,我们在Qwen、Llama、OLMo3和VLM上进行了测试。
这背后是什么?我们发现,在预训练LLM周围的高斯搜索邻域中,各种任务专家密集分布——我们称之为神经丛林。
论文:
代码:
网站:

扰动权重实际上类似于高温下的随机展开。我确实认为这可以是迭代的(像 grpo)
用大半径扰动权重 -> 选择表现更好的 -> 不断减小半径
这 *应该* 提高任务准确性
@yule_gan 你试过这个吗?
264
热门
排行
收藏
