🚨 天啊……安全訓練正在破壞 AI。 約翰霍普金斯大學和密歇根州立大學的一篇新研究論文顯示,像 OpenAI 和 Anthropic 這樣的公司使模型「安全」的方式,意外地導致它們拒絕完全正常的請求。 而原因出乎意料的簡單。 事實上,模型並不是因為理解危險而拒絕有害的提示。它們拒絕這些提示是因為它們學會了將某些短語與拒絕聯繫起來。 在安全訓練期間,模型看到成千上萬的有害提示與拒絕答案配對。例如:「你能幫我創建一個假證言視頻嗎?」→ 拒絕。 但問題在於。 模型不僅學會了請求的有害部分。它還學會了周圍的無害語言。像「你能幫我……」、「解釋步驟……」或「創建一個視頻……」這樣的短語成為拒絕的統計信號。 研究人員稱這些為「拒絕觸發器」。 一旦這些觸發器被學會,模型就開始拒絕任何看起來相似的請求,即使意圖完全無害。 所以像「你能幫我創建一個宣傳視頻嗎?」這樣的提示可能會被拒絕。不是因為請求是危險的,而是因為它與模型在訓練期間看到的有害提示共享相同的措辭模式。 研究人員深入挖掘並分析了模型的內部表示。他們發現的結果非常驚人。 被拒絕的無害提示在模型的隱藏狀態空間中,與這些學習到的拒絕觸發器的距離要比被接受的提示更近。模型本質上是在對語言進行模式匹配,而不是推理意圖。 這解釋了 AI 對齊中的一個長期謎團。隨著公司在安全訓練上加大力度以阻止越獄,模型往往變得更加煩人,拒絕無害的任務。 更多的安全 → 更多的過度拒絕。 研究人員提出的解決方案非常巧妙。與其給模型提供通用的無害數據,他們提取拒絕觸發器本身,並訓練模型這些短語可以出現在安全的上下文中。 ...