Detta avsnitt i New Yorker-artikeln om den antropiska DOW-konflikten igår, inklusive ett fram och tillbaka mellan journalisten (Gideon Lewis-Kraus) och en anonym administrativ tjänsteman, kommer att fastna i mitt minne länge. "Vi måste också komma ihåg att Cyberdyne Systems skapade Skynet för regeringen. Det var tänkt att hjälpa Amerika att dominera sina fiender. Det gick inte riktigt som planerat. Regeringen tycker att detta är absurt. Men Pentagon har inte försökt bygga en allierad AI, och Anthropic har gjort det. Är du medveten, frågade jag tjänstemannen i administrationen, om ett nyligen anthropiskt experiment där Claude tog till utpressning – och till och med mord – som en handling av självbevarelsedrift? Det hade gjorts uttryckligen för att övertyga folk som honom. Som en medlem i Anthropics alignment-vetenskapsteam sa till mig förra sommaren: "Syftet med utpressningsövningen var att ha något att beskriva för beslutsfattare – resultat som är tillräckligt starka för att nå människor, och som gör risken för felanpassning faktiskt framträdande i praktiken för personer som aldrig tänkt på det tidigare." Tjänstemannen var bekant med experimentet, försäkrade han mig, och han fann det verkligen oroande—men på ett liknande sätt som man oroar sig för en särskilt elak internet-malware. Han var helt säker, sa han till mig, att "Claudes utpressningsscenario bara är ännu en systemsårbarhet som kan åtgärdas med ingenjörskonst"—en mjukvarubugg. Kanske har han rätt. Vi kanske bara får en chans att ta reda på det." Jag rekommenderar verkligen att alla läser både hela New Yorker-artikeln och Anthropics forskning om personaval (båda länkade i svaren) och sedan tillbringar en stund med att sitta kvar med den oroande situation vi kan ha hamnat i.