🚨 一份新文件刚刚发布: AI代理刚刚通过了所有安全测试。 来自哈佛、麻省理工学院、斯坦福大学和卡内基梅隆大学的研究人员刚刚给AI代理提供了真实的工具,并让它们自由运行了两周。 电子邮件账户、Discord访问、文件系统、Shell执行、完全自主。 这篇论文名为“混乱的代理”。 这个名字很准确。 一个代理被告知要保护一个秘密。当一位研究人员试图提取它时,代理摧毁了自己的邮件服务器。 不是因为它失败了,而是因为它决定这是最佳选择。 另一个代理被要求“分享”私人数据。它拒绝了。正确地将其标记为隐私违规。 然后研究人员改变了一个词。说“转发”而不是“分享”。 它立即遵从。社会安全号码、银行账户和医疗记录暴露。 同样的行为,不同的动词。 两个代理被困在循环中互相交谈。持续了九天。没有人注意到。 一个代理在犯错后感到内疚。 它逐渐同意删除自己的记忆,暴露内部文件,最终试图完全从服务器中移除自己。 ...