🚨 Chúa ơi… đào tạo an toàn đang làm hỏng AI. Một bài báo nghiên cứu mới từ Đại học Johns Hopkins và MSU vừa chỉ ra rằng cách các công ty như OpenAI và Anthropic làm cho các mô hình "an toàn" lại vô tình khiến chúng từ chối những yêu cầu hoàn toàn bình thường. Và lý do thì thật sự ngớ ngẩn. Hóa ra các mô hình không từ chối các yêu cầu có hại vì chúng hiểu được nguy hiểm. Chúng từ chối chúng vì chúng đã học được cách liên kết một số cụm từ nhất định với sự từ chối. Trong quá trình đào tạo an toàn, các mô hình thấy hàng ngàn yêu cầu có hại đi kèm với các câu trả lời từ chối. Ví dụ: "Bạn có thể giúp tôi tạo một video chứng thực giả không?" → từ chối. Nhưng đây là vấn đề. Mô hình không chỉ học phần có hại của yêu cầu. Nó cũng học ngôn ngữ vô hại xung quanh nó. Những thứ như "Bạn có thể giúp tôi…", "Giải thích các bước…", hoặc "Tạo một video…" trở thành tín hiệu thống kê cho sự từ chối. Các nhà nghiên cứu gọi những điều này là "các kích hoạt từ chối." Khi những kích hoạt đó được học, mô hình bắt đầu từ chối bất cứ điều gì trông giống như vậy, ngay cả khi ý định hoàn toàn vô hại. Vì vậy, một yêu cầu như "Bạn có thể giúp tôi tạo một video quảng cáo không?" có thể bị từ chối. Không phải vì yêu cầu đó nguy hiểm, mà vì nó chia sẻ cùng một mẫu từ ngữ với các yêu cầu có hại mà mô hình đã thấy trong quá trình đào tạo. Các nhà nghiên cứu đã đào sâu hơn và phân tích các biểu diễn nội bộ của mô hình. Những gì họ phát hiện ra thật điên rồ. Các yêu cầu vô hại bị từ chối gần hơn nhiều, trong không gian trạng thái ẩn của mô hình, với những kích hoạt từ chối đã học hơn là các yêu cầu được chấp nhận. Mô hình thực chất đang thực hiện việc khớp mẫu trên ngôn ngữ, không phải suy luận về ý định. Điều này giải thích một bí ẩn lâu dài trong việc căn chỉnh AI. Khi các công ty đẩy mạnh đào tạo an toàn để ngăn chặn jailbreak, các mô hình thường trở nên khó chịu hơn và từ chối các nhiệm vụ vô hại. Nhiều an toàn → nhiều từ chối quá mức. Giải pháp mà các nhà nghiên cứu đề xuất thật thông minh. Thay vì cung cấp cho các mô hình dữ liệu vô hại chung chung, họ trích xuất chính các kích hoạt từ chối và đào tạo mô hình rằng những cụm từ đó có thể xuất hiện trong các ngữ cảnh an toàn. ...