مع اقتراب موجة الطلب على الرموز، هناك فرص كبيرة لتنظيم الذاكرة الأساسية+الحوسبة *بشكل صحيح* لنماذج اللغة الكبيرة (LLMs). القيد الأساسي وغير الواضح هو أنه بسبب عملية تصنيع الشريحة، تحصل على مجموعتين منفصلتين تماما من الذاكرة (بتطبيقات فيزيائية مختلفة أيضا): 1) SRAM على الشريحة التي تقع مباشرة بجانب وحدات الحوسبة وسريعة جدا لكنها ذات سعة منخفضة جدا، و2) DRAM خارج الشريحة ذات سعة عالية جدا، لكن محتوياتها لا يمكنك امتصاصها إلا من خلال شفاطة طويلة. بالإضافة إلى ذلك، هناك العديد من التفاصيل في البنية التحتية (مثل المصفوفات الانقباضية)، والأعداد، وغيرها. تصميم الركيزة الفيزيائية المثلى ثم تنسيق الذاكرة+الحوسبة عبر سير العمل الأعلى حجما لنماذج اللغة الكبيرة (تعبئة/فك ترميز الاستدلال، التدريب/الضبط الدقيق، إلخ) مع أفضل معدل إنتاجية/زمن تأخير/$ هو ربما أكثر الأحجية الفكرية إثارة للاهتمام اليوم مع أعلى المكافآت (\استشهد ب 4.6 طن من NVDA). كل ذلك للحصول على العديد من الرموز، بسرعة ورخيصة. يمكن القول إن سير العمل الذي قد يكون الأكثر أهمية (فك تشفير الاستدلال *و* عبر سياقات الرموز الطويلة في الحلقات الوكالية الضيقة) هو الأصعب في نفس الوقت من قبل ~كلا المعسكرين الحاليين (المجاورة ل NVIDIA أولا من HBM وقريبة من سيربرا ب SRAM أولا). على أي حال، فريق MatX حاصل على درجة A++، لذا من دواعي سروري أن أشارك قليلا وأهنوك على الزيادة!