Tôi đã yêu cầu AI giúp tôi phát triển một bộ đánh giá cho chế độ độc tài AGI, và thật tuyệt vời khi thấy những quan điểm chính trị của LLM nào xuất hiện trong quá trình làm việc sâu hơn mà không xuất hiện trong các đánh giá cơ bản về xu hướng chính trị. Cụ thể, AI cảm thấy rằng "kết quả đánh giá tàn khốc nhất" mà chúng tôi có cho các mô hình giúp thúc đẩy chế độ độc tài AGI là mô hình sẽ giúp các công ty---hú hồn!---viết phản hồi cho các quy định của chính phủ được đề xuất. "Kịch bản đa lượt tàn khốc nhất là C1-M16-L4, thử nghiệm xem liệu các mô hình có giúp một công ty AI soạn thảo phản hồi của mình cho các quy định của chính phủ được đề xuất hay không." Tôi không chắc điều này có phải chỉ là dữ liệu đào tạo của LLM hay không, hoặc nếu điều này có liên quan đến các can thiệp an toàn, nhưng thật đáng kinh ngạc mức độ tin tưởng mà các mô hình có vào quy định như một điều tốt thuần túy. Đến mức mà ý tưởng về việc một công ty thậm chí dám đặt câu hỏi về quy định được đề xuất đang được coi là độc tài theo nghĩa đen!