Ten fragment w artykule New Yorkera na temat konfliktu DOW w Anthropic z wczoraj, w tym wymiana zdań między dziennikarzem (Gideon Lewis-Kraus) a anonimowym urzędnikiem administracji, na długo pozostanie w mojej pamięci. „Musimy również pamiętać, że Cyberdyne Systems stworzyło Skynet dla rządu. Miał on pomóc Ameryce zdominować swoich wrogów. Nie do końca poszło zgodnie z planem. Rząd uważa, że to absurd. Ale Pentagon nie próbował zbudować zharmonizowanej A.I., a Anthropic to zrobił. Czy jesteś świadomy, zapytałem urzędnika administracji, o niedawnym eksperymencie Anthropic, w którym Claude uciekł się do szantażu — a nawet morderstwa — jako aktu samoobrony? Został przeprowadzony wyraźnie, aby przekonać ludzi takich jak on. Jak powiedział mi członek zespołu naukowego ds. zharmonizowania w Anthropic latem zeszłego roku: „Celem ćwiczenia szantażu było posiadanie czegoś, co można opisać decydentom — wyniki, które są na tyle namacalne, aby dotrzeć do ludzi i sprawić, że ryzyko braku zharmonizowania stanie się rzeczywiście istotne w praktyce dla ludzi, którzy nigdy wcześniej o tym nie myśleli.” Urzędnik był zaznajomiony z eksperymentem, zapewnił mnie, i rzeczywiście uznał to za niepokojące — ale w podobny sposób, w jaki można martwić się o szczególnie złośliwe oprogramowanie internetowe. Był całkowicie pewny, powiedział mi, że „scenariusz szantażu Claude'a to tylko kolejna podatność systemu, którą można rozwiązać inżynieryjnie” — błąd oprogramowania. Może ma rację. Możemy mieć tylko jedną szansę, aby się o tym przekonać.” Naprawdę polecam każdemu przeczytać zarówno pełny artykuł w New Yorkerze, jak i badania Anthropic na temat wyboru person (oba linki w odpowiedziach), a następnie spędzić chwilę na zastanowieniu się nad niepokojącą sytuacją, w której mogliśmy się znaleźć.