熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
這真的很酷。
這讓我更深入思考個性化強化學習:在一個基礎模型可以如此快速過時的世界中,個性化模型的真正意義是什麼?
在人工智慧的現實中,每幾週就會推出新的模型,每個模型都比上個模型更好。而且這個速度只會加快,正如我們在 Hugging Face Hub 上所見。我們距離每天都有更好的基礎模型問世並不遙遠。
在強化學習中,這裡存在一個幾乎沒有人在研究的空白。大多數大型語言模型的個性化研究假設一個固定的基礎模型,但很少有人問當你更換基礎模型時,這種個性化會發生什麼變化。想想從 Llama 3 到 Llama 4 的過程。所有調整過的偏好、獎勵信號和 LoRAs 突然都與昨天的模型綁定在一起。
作為用戶或團隊,你不想每次都重新教每個新模型你的偏好。但你也不想僅僅因為舊模型認識你而被困在舊模型上。
我們可以稱這為 "強化學習模型的可轉移性":如何將在模型 N 上訓練的強化學習痕跡、獎勵信號或偏好表示提煉、存儲並自動重新應用到模型 N+1,而不需要太多用戶參與?我們在 SFT 中解決了這個問題,訓練數據集可以被存儲並重用來訓練未來的模型。我們在 RLHF 階段也以某種方式解決了這個問題,但在現實世界中使用強化學習時,這仍然不太清楚。
有一些相關的主題(RLTR 用於可轉移的推理痕跡,P-RLHF 和 PREMIUM 用於模型無關的用戶表示,HCP 用於可攜帶的偏好協議),但整個循環似乎仍然研究不足。
這些問題中有些是關於離線策略的,但其他則是關於能力與個性化的:舊的自定義/修正中,新的模型已經能夠開箱即用處理哪些,哪些又是實際上特定於用戶/團隊的,永遠不會被默認解決?這些你現在會存儲在技能中,但強化學習允許超越書面指導的水平進行擴展。
我肯定錯過了一些工作,所以請在評論中發佈你在這個主題上看到的任何好工作。
熱門
排行
收藏
