RAG معطل ولا أحد يتحدث عنه 🤯 نشرت ستانفورد للتو ورقة بحثية عن "الانهيار الدلالي"، تثبت أنه بمجرد أن تصل قاعدة معرفتك إلى ~10,000 وثيقة، يصبح البحث الدلالي رمية عملة حرفيا. إليك سبب فشل RAG الخاص بك: بعد 10,000 مستند، يصبح بحثك الاصطناعي المتقدم أشبه برمية عملة. كل مستند تضيفه يتحول إلى تضمين عالي الأبعاد. على نطاق صغير، تتجمع الوثائق المشابهة معا بشكل مثالي. لكن إذا أضفت بيانات كافية، تمتلئ المساحة. المسافات تنضغط. كل شيء يبدو "ذا صلة". إنها لعنة الأبعاد. في الفضاء 1000D، 99.9٪ من بياناتك تعيش على القشرة الخارجية، على بعد متساو تقريبا من أي استعلام. وجدت ستانفورد انخفاضا بنسبة 87٪ في 50 ألف مستوى. إضافة المزيد من السياق تجعل الهلوسات أسوأ، لا أفضل. كنا نظن أن RAG يحل الهلوسات... كان يخفيهم خلف الرياضيات. الحل ليس إعادة الترتيب أو تقسيم الأجزاء بشكل أفضل. إنها قواعد بيانات استرجاع هرمية ورسم بياني.