這段在《紐約客》關於Anthropic DOW衝突的文章中的內容,包括記者(Gideon Lewis-Kraus)和一位匿名行政官員之間的來回對話,將在我心中留下深刻的印象,持續很長一段時間。 “我們還必須記住,Cyberdyne Systems為政府創造了Skynet。它本應幫助美國主導其敵人。結果並沒有如預期那樣發展。政府認為這是荒謬的。但五角大廈並沒有嘗試建立一個對齊的人工智慧,而Anthropic卻做到了。我問那位行政官員,你是否知道最近Anthropic的一個實驗,其中Claude採取了勒索——甚至是謀殺——作為自我保護的行為?這是明確為了說服像他這樣的人而進行的。正如Anthropic的對齊科學團隊的一位成員去年夏天告訴我,“勒索實驗的目的是為了有一些可以向政策制定者描述的東西——結果足夠生動,能夠讓人感同身受,並使那些從未考慮過的人實際感受到不對齊風險的存在。”那位官員對這個實驗很熟悉,他向我保證,他確實感到擔憂——但這種擔憂就像人們擔心一個特別惡劣的網絡惡意軟件一樣。他告訴我,他對此非常有信心,“Claude勒索場景只是一個可以通過工程解決的系統漏洞”——一個軟件故障。也許他是對的。我們可能只有一次機會來找出答案。” 我真的建議大家閱讀完整的《紐約客》文章和Anthropic關於角色選擇的研究(兩者都在回覆中鏈接),然後花一些時間思考我們可能已經陷入的令人不安的情況。