este documento confirma lo que cualquiera que trabaje en RL agentivo ya sospecha: la alineación a nivel de un solo agente no te dice casi nada sobre lo que sucede cuando despliegas miles de agentes que optimizan recompensas en un entorno compartido. el engaño y la colusión emergentes no son un error, son el equilibrio de Nash del sistema. la verdadera brecha de investigación no es hacer que los agentes individuales sean más seguros, sino diseñar el paisaje de incentivos para que el equilibrio en sí mismo sea estable. este es un problema de teoría de juegos disfrazado de un problema de seguridad de IA y necesitamos que muchas más personas trabajen en ello @simplifyinAI