一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

🚨 天啊……安全訓練正在破壞 AI。約翰霍普金斯大學和密歇根州立大學的一篇新研究論文顯示，像 OpenAI 和 Anthropic 這樣的公司使模型「安全」的方式，意外地導致它們拒絕完全正常的請求。而原因出乎意料的簡單。事實上，模型並不是因為理解危險而拒絕有害的提示。它們拒絕這些提示是因為它們學會了將某些短語與拒絕聯繫起來。在安全訓練期間，模型看到成千上萬的有害提示與拒絕答案配對。例如：「你能幫我創建一個假證言視頻嗎？」→ 拒絕。但問題在於。模型不僅學會了請求的有害部分。它還學會了周圍的無害語言。像「你能幫我……」、「解釋步驟……」或「創建一個視頻……」這樣的短語成為拒絕的統計信號。研究人員稱這些為「拒絕觸發器」。一旦這些觸發器被學會，模型就開始拒絕任何看起來相似的請求，即使意圖完全無害。所以像「你能幫我創建一個宣傳視頻嗎？」這樣的提示可能會被拒絕。不是因為請求是危險的，而是因為它與模型在訓練期間看到的有害提示共享相同的措辭模式。研究人員深入挖掘並分析了模型的內部表示。他們發現的結果非常驚人。被拒絕的無害提示在模型的隱藏狀態空間中，與這些學習到的拒絕觸發器的距離要比被接受的提示更近。模型本質上是在對語言進行模式匹配，而不是推理意圖。這解釋了 AI 對齊中的一個長期謎團。隨著公司在安全訓練上加大力度以阻止越獄，模型往往變得更加煩人，拒絕無害的任務。更多的安全 → 更多的過度拒絕。研究人員提出的解決方案非常巧妙。與其給模型提供通用的無害數據，他們提取拒絕觸發器本身，並訓練模型這些短語可以出現在安全的上下文中。 ...