denna artikel bekräftar vad alla som arbetar med agentisk RL redan misstänker – justering på enskild agentnivå säger nästan ingenting om vad som händer när du placerar tusentals belöningsoptimerande agenter i en delad miljö. Den framväxande vilseledningen och samröret är inte en bugg, det är systemets Nash-jämvikt. Den verkliga forskningsgapet är inte att göra enskilda agenter säkrare, utan att utforma incitamentslandskapet så att jämvikten i sig är stabil. detta är ett spelteoriproblem förklätt till ett AI-säkerhetsproblem och vi behöver mycket fler som arbetar med det @simplifyinAI