أجد نفسي أكتب أكثر فأكثر عن @Zai_org هذه الأيام، لكن وتيرة الابتكار لديهم مذهلة. وها نحن هنا مرة أخرى.... إذا كنت تتبع قوانين التكبير، فأنت تعلم أن عدد المعلمات الخام بدأ يؤثر على كفاءة البنية وجودة البيانات. @Zai_org GLM-5 هو درس متقدم في هذا الانتقال. نحن ننظر إلى وحش خليط من الخبراء (MoE) بحجم 744B ينشط فقط 40 مليار معلمة لكل رمز. إنه نحيف حيث يهم وضخم حيث يجب أن يكون. في @layerlens_ai كنا نقوم بتقييم GLM-5 بنشاط ويمكنك فقط الحصول على النتائج بنفسك: عمارة الحكم الذاتي الابتكار الأبرز هنا هو DeepSeek Sparse Attention (DSA) المدمج مع إطار العمل الجديد "Slime" لتعلم التعلم الواقعي. في النموذج القديم، كان RLHF يهدف إلى جعل العارضات "أجمل". في GLM-5، يستخدم التعلم المعزز لسد الفجوة بين التفكير والفعل. تسمح هذه المكدس غير المتزامنة للتعلم المنطقي للنموذج ب "اللعب" مع مهام هندسية معقدة متعددة الخطوات، والتعلم من الفشل بطريقة تحاكي مهندس أول وهو يعمل في التمثيل الدائم. الأمر لا يقتصر فقط على التنبؤ بالرمز التالي؛ بل هو التنبؤ بالحل التالي. مقارنة "القفزة بين الأجيال" لوحة التحكم في LayerLens ليست مجرد قائمة أرقام؛ إنها خريطة للاستدلال عالي الأبعاد. فيما يلي المقاييس الأساسية التي تحدد هذا الإصدار: اختبار الإنسانية الأخير (HLE) [الدرجة: 50.4]: صمم اختبار HLE ليكون المعيار الأكاديمي "النهائي"، ويتكون من أسئلة تم التحقق منها من قبل خبراء وتكون مقصودة "مضادة لجوجل". في 50.4، لا يقتصر GLM-5 على استرجاع الحقائق؛ إنه يتفوق على كلود 4.5 أوبوس (43.4) وGPT-5.2 (45.5) في التوليف المعزز بالأدوات. تم التحقق من قبل SWE-bench [الدرجة: 77.8٪]: هذا هو المعيار الذهبي لهندسة البرمجيات الواقعية. يجب على النموذج تصفح المستودع، وإعادة إنتاج خطأ، وتقديم طلب سحب وظيفي. GLM-5 الآن يتبادل الضربات مع أقوى الأنظمة الملكية في العالم. BrowseComp (مع إدارة السياق) [الدرجة: 75.9]: اختبار ل "الوكالة السياقية". يقيس قدرة النموذج على التنقل في المواقع الحية والحفاظ على الذاكرة خلال سجلات التفاعل الممتدة. تتصدر GLM-5 المجموعة، متفوقا على GPT-5.2 (65.8). طاولة البيع 2 [مصنفة #1]: محاكاة أعمال لمدة عام تقيس التخطيط المستمر واتخاذ قرارات تشغيلية. أنهى GLM-5 الموسم برصيد حساب نهائي قدره 4,432 دولارا—وهو الأعلى بين جميع نماذج المصدر المفتوح—مما يثبت قدرتها على الحفاظ على استراتيجية متماسكة على مدى آلاف الأدوار. τ²-Bench [الدرجة: 89.7]: من خلال اختبار سيناريوهات الوكلاء متعددة الخطوات المعقدة، تطابق GLM-5 فعليا مع كلود 4.5 أوبوس (91.6) وتجاوزت GPT-5.2 (85.5)، مما عزز موقعه كنظام وكيل وليس روبوت دردشة. سيادة الأجهزة هناك مفارقة جميلة في قصة التدريب: تم تدريب GLM-5 بالكامل على بنية هواوي Ascend. إنه تذكير بأن الذكاء مستقل عن الركيزة. لا تحتاج إلى علامة تجارية محددة من السيليكون للوصول إلى الحدود؛ تحتاج إلى الحدس المعماري الصحيح وجبل من الرموز عالية الجودة—28.5 ترن، تحديدا. لماذا هذا مهم...