denne artikkelen bekrefter det alle som jobber med agentisk RL allerede mistenker – justering på enkeltagentnivå forteller deg nesten ingenting om hva som skjer når du deployerer tusenvis av belønningsoptimaliserende agenter i et delt miljø. Den fremvoksende bedraget og sammensvergelsen er ikke en feil, det er systemets Nash-likevekt. Det virkelige forskningsgapet er ikke å gjøre enkeltagenter tryggere, det er å designe insentivlandskapet slik at likevekten i seg selv er stabil. dette er et spillteoriproblem forkledd som et AI-sikkerhetsproblem, og vi trenger langt flere som jobber med det @simplifyinAI