一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

這真的很酷。這讓我更深入思考個性化強化學習：在一個基礎模型可以如此快速過時的世界中，個性化模型的真正意義是什麼？在人工智慧的現實中，每幾週就會推出新的模型，每個模型都比上個模型更好。而且這個速度只會加快，正如我們在 Hugging Face Hub 上所見。我們距離每天都有更好的基礎模型問世並不遙遠。在強化學習中，這裡存在一個幾乎沒有人在研究的空白。大多數大型語言模型的個性化研究假設一個固定的基礎模型，但很少有人問當你更換基礎模型時，這種個性化會發生什麼變化。想想從 Llama 3 到 Llama 4 的過程。所有調整過的偏好、獎勵信號和 LoRAs 突然都與昨天的模型綁定在一起。作為用戶或團隊，你不想每次都重新教每個新模型你的偏好。但你也不想僅僅因為舊模型認識你而被困在舊模型上。我們可以稱這為 "強化學習模型的可轉移性"：如何將在模型 N 上訓練的強化學習痕跡、獎勵信號或偏好表示提煉、存儲並自動重新應用到模型 N+1，而不需要太多用戶參與？我們在 SFT 中解決了這個問題，訓練數據集可以被存儲並重用來訓練未來的模型。我們在 RLHF 階段也以某種方式解決了這個問題，但在現實世界中使用強化學習時，這仍然不太清楚。有一些相關的主題（RLTR 用於可轉移的推理痕跡，P-RLHF 和 PREMIUM 用於模型無關的用戶表示，HCP 用於可攜帶的偏好協議），但整個循環似乎仍然研究不足。這些問題中有些是關於離線策略的，但其他則是關於能力與個性化的：舊的自定義/修正中，新的模型已經能夠開箱即用處理哪些，哪些又是實際上特定於用戶/團隊的，永遠不會被默認解決？這些你現在會存儲在技能中，但強化學習允許超越書面指導的水平進行擴展。我肯定錯過了一些工作，所以請在評論中發佈你在這個主題上看到的任何好工作。