Euh, le document sur le désalignement agentique est-il en fait de la propagande ?
Nathan Calvin
Nathan Calvin15 mars, 22:52
Ce passage de l'article du New Yorker sur le conflit DOW d'Anthropic d'hier, y compris un échange entre le journaliste (Gideon Lewis-Kraus) et un fonctionnaire administratif anonyme, va rester gravé dans ma mémoire pendant longtemps. « Nous devons également nous rappeler que Cyberdyne Systems a créé Skynet pour le gouvernement. Cela devait aider l'Amérique à dominer ses ennemis. Cela ne s'est pas exactement passé comme prévu. Le gouvernement pense que c'est absurde. Mais le Pentagone n'a pas essayé de construire une A.I. alignée, et Anthropic l'a fait. Êtes-vous au courant, ai-je demandé au fonctionnaire de l'administration, d'une expérience récente d'Anthropic dans laquelle Claude a eu recours au chantage—et même à l'homicide—comme acte de préservation de soi ? Cela avait été réalisé explicitement pour convaincre des gens comme lui. Comme un membre de l'équipe de science de l'alignement d'Anthropic me l'a dit l'été dernier, « Le but de l'exercice de chantage était d'avoir quelque chose à décrire aux décideurs—des résultats suffisamment viscéraux pour toucher les gens, et rendre le risque de désalignement réellement saillant en pratique pour ceux qui n'y avaient jamais pensé auparavant. » Le fonctionnaire était familier avec l'expérience, m'a-t-il assuré, et il la trouvait en effet inquiétante—mais d'une manière similaire à celle dont on pourrait s'inquiéter d'un morceau de malware particulièrement désagréable sur Internet. Il était parfaitement confiant, m'a-t-il dit, que « le scénario de chantage de Claude n'est qu'une autre vulnérabilité des systèmes qui peut être résolue par l'ingénierie »—un bug logiciel. Peut-être a-t-il raison. Nous n'aurons peut-être qu'une seule chance de le découvrir. » Je recommande vraiment à tout le monde de lire à la fois l'article complet du New Yorker et la recherche d'Anthropic sur la sélection de persona (tous deux liés dans les réponses) et ensuite de passer un moment à réfléchir à la situation déconcertante dans laquelle nous pourrions nous être retrouvés.
d'accord, malheureusement un tas de total idiots sont venus dans mes réponses, donc laissez-moi être clair : je pense qu'Anthropic a de bonnes intentions et fait principalement du bon travail, y compris l'agenda des organismes modèles. Je ne pense pas que cet article soutienne les affirmations que les gens en font. Maintenant, je vois cette citation
22