🚨لا أحد مستعد لهذه الورقة. كل نموذج لغوي تستخدمه GPT-4.1، كلود، جيميني، ديب سيك، لاما-4، جروك، كوين لديه عيب لم يصلحه أي قدر من التحجيم. لا يمكنهم التمييز بين المعلومات القديمة والجديدة. ضغط دم المريض: 120 عند الفرز. 128 بعد عشر دقائق. 125 عند التفريغ. "ما آخر قراءة؟" أي إنسان: "125، بالطبع." كل نموذج لغوي كبير، بمجرد أن تتراكم التحديثات الكافية: خطأ. ليس أحيانا مخطئا. خطأ 100٪. دقة صفرية. هلوسة كاملة. كل عارضة. لا استثناءات. الإجابة تقع في نهاية المدخل. قبل السؤال مباشرة. لا حاجة للبحث. النموذج ببساطة لا يستطيع التخلي عن القيم القديمة. تم اختبار 35 نموذجا من قبل باحثين من جامعة فيرجينيا وجامعة نيويورك. جميع الثلاثين يتبعون نفس منحنى الموت الرياضي بالضبط. تنخفض الدقة لوغاريتيا خطيا إلى الصفر مع تراكم المعلومات القديمة. لا يوجد هضب. لا تعافي. مجرد خط مستقيم نحو الفشل الكامل. استعاروا مفهوما من علم النفس المعرفي يسمى التداخل الاستباقي القديم الذي يمنع استدعاء الذكريات الجديدة. في البشر، يتوقف هذا التأثير. أدمغتنا تتعلم كبح الضوضاء والتركيز على ما هو موجود. نماذج اللغة الكبيرة لا تصل إلى مرحلة ثابتة أبدا. تتدهور حتى تنهار تماما. حاول الباحثون كل شيء: "انس القيم القديمة" - بالكاد تحرك الإبرة سلسلة الأفكار - نفس الانهيار...