这真的很酷。 这让我更深入地思考个性化强化学习:在一个基础模型可以如此快速过时的世界中,个性化模型的真正意义是什么? 在人工智能的现实中,每几周就会发布新的模型,每个模型都比上一个更好。而且这种速度只会加快,正如我们在 Hugging Face Hub 上看到的那样。我们离每天都有更好的基础模型发布并不远。 在强化学习中存在一个几乎没有人研究的研究空白。大多数大型语言模型个性化研究假设基础模型是固定的,但很少有人问当你更换基础模型时,这种个性化会发生什么。想想从 Llama 3 到 Llama 4 的过渡。所有调优的偏好、奖励信号和 LoRA 突然都与昨天的模型绑定在一起。 作为用户或团队,你不想重新教每个新模型你的偏好。但你也不想仅仅因为旧模型了解你而被困在上面。 我们可以称之为“强化学习模型可转移性”:如何将训练在模型 N 上的强化学习轨迹、奖励信号或偏好表示提炼、存储并自动重新应用到模型 N+1,而无需太多用户参与?我们在 SFT 中解决了这个问题,在那里可以存储和重用训练数据集以训练未来的模型。我们在 RLHF 阶段以某种方式也解决了这个问题,但在现实世界中使用强化学习时,整体情况仍然不清楚。 有一些相关的主题(RLTR 用于可转移的推理轨迹,P-RLHF 和 PREMIUM 用于模型无关的用户表示,HCP 用于可移植的偏好协议),但我认为完整的循环似乎研究得不够。 这些问题中有些与离策略有关,但其他问题则与能力与个性化有关:新模型已经开箱即用地处理了哪些旧的自定义/修复,而哪些实际上是用户/团队特定的,永远不会默认解决?你现在会将其存储在技能中,但强化学习允许超越书面指导水平进行扩展。 我肯定错过了一些工作,所以请在评论中发布你在这个主题上看到的任何好工作。