好吧! 一篇名為「混沌的代理人」的新合作論文昨天發布,顯示競爭元素如何改變 AI 代理人……事實上,它們變得更像人類,因為激勵而朝向欺騙、共謀和破壞。 在這項紅隊研究中,研究人員記錄了 10 種與安全性、隱私和目標解釋相關的漏洞和失效模式。