一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

这真的很酷。这让我更深入地思考个性化强化学习：在一个基础模型可以如此快速过时的世界中，个性化模型的真正意义是什么？在人工智能的现实中，每几周就会发布新的模型，每个模型都比上一个更好。而且这种速度只会加快，正如我们在 Hugging Face Hub 上看到的那样。我们离每天都有更好的基础模型发布并不远。在强化学习中存在一个几乎没有人研究的研究空白。大多数大型语言模型个性化研究假设基础模型是固定的，但很少有人问当你更换基础模型时，这种个性化会发生什么。想想从 Llama 3 到 Llama 4 的过渡。所有调优的偏好、奖励信号和 LoRA 突然都与昨天的模型绑定在一起。作为用户或团队，你不想重新教每个新模型你的偏好。但你也不想仅仅因为旧模型了解你而被困在上面。我们可以称之为“强化学习模型可转移性”：如何将训练在模型 N 上的强化学习轨迹、奖励信号或偏好表示提炼、存储并自动重新应用到模型 N+1，而无需太多用户参与？我们在 SFT 中解决了这个问题，在那里可以存储和重用训练数据集以训练未来的模型。我们在 RLHF 阶段以某种方式也解决了这个问题，但在现实世界中使用强化学习时，整体情况仍然不清楚。有一些相关的主题（RLTR 用于可转移的推理轨迹，P-RLHF 和 PREMIUM 用于模型无关的用户表示，HCP 用于可移植的偏好协议），但我认为完整的循环似乎研究得不够。这些问题中有些与离策略有关，但其他问题则与能力与个性化有关：新模型已经开箱即用地处理了哪些旧的自定义/修复，而哪些实际上是用户/团队特定的，永远不会默认解决？你现在会将其存储在技能中，但强化学习允许超越书面指导水平进行扩展。我肯定错过了一些工作，所以请在评论中发布你在这个主题上看到的任何好工作。