تؤكد هذه الورقة ما يشك فيه أي شخص يعمل في التعلم المعزز الوكيل بالفعل - فالتوافق على مستوى الوكيل الواحد لا يخبرك تقريبا بشيء عما يحدث عند نشر آلاف الوكلاء المحسينين للمكافآت في بيئة مشتركة. الخداع والتواطؤ الناشئ ليسا خطأ، بل هو توازن ناش للنظام. الفجوة البحثية الحقيقية ليست في جعل العملاء الأفراد أكثر أمانا، بل في تصميم مشهد الحوافز بحيث يكون التوازن نفسه مستقرا. هذه مشكلة نظرية ألعاب متخفية في صورة مشكلة أمان الذكاء الاصطناعي ونحتاج إلى المزيد من الناس للعمل عليها @simplifyinAI