المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zhuokai Zhao
باحث @Meta
أبني وأدرس نماذج اللغة الكبيرة والوكلاء
مشاركة أفكاري حول التفكير، والتعلم الواقعي، والذكاء القابل للتوسع
@UChicagoCS علوم الحاسب للدكتوراه
جمعت مختبرات AMI للتو 1.03 مليار دولار. جمعت مختبرات العالم مليار دولار قبل بضعة أسابيع. كلاهما يراهن على نماذج عالمية.
لكن تقريبا لا أحد يقصد نفس الشيء بهذا المصطلح.
هنا، في رأيي، خمس فئات من نماذج العالم.
---
1. بنية التنبؤ بالتضمين المشترك (JEPA)
الممثلون: مختبرات AMI (@ylecun)، V-JEPA 2
الرهان المركزي هنا هو أن إعادة بناء البكسلات وحدها هدف غير فعال لتعلم التجريدات اللازمة للفهم الفيزيائي. لقد قال لي كون هذا منذ سنوات — التنبؤ بكل بكسل في المستقبل صعب الفهم في أي بيئة عشوائية. يتجنب JEPA هذا من خلال التنبؤ في فضاء كامنة مكتسب بدلا من ذلك.
بشكل ملموس، يدرب JEPA مشفرا يربط رقع الفيديو بالتمثيلات، ثم متنبئا يتنبأ بالمناطق المقنعة في فضاء التمثيل — وليس في فضاء البكسل.
هذا خيار تصميم حاسم.
النموذج التوليدي الذي يعيد بناء البكسلات يجبر على الالتزام بتفاصيل منخفضة المستوى (النسيج الدقيق، الإضاءة، موقع الورقة) التي تكون بطبيعتها غير متوقعة. من خلال العمل على التضمينات المجردة، يمكن ل JEPA التقاط "الكرة ستسقط من الطاولة" دون الحاجة إلى هلوسة كل إطار لسقوطها.
V-JEPA 2 هو أوضح نقطة إثبات واسعة النطاق حتى الآن. إنه نموذج بقيمة 1.2 مليار معامل تم تدريبه مسبقا على 1 مليون + ساعة من الفيديو عبر توقع مخفي ذاتي الإشراف — بدون تسميات، بدون نص. المرحلة الثانية من التدريب هي حيث يصبح الأمر مثيرا للاهتمام: فقط 62 ساعة من بيانات الروبوت من مجموعة بيانات DROID تكفي لإنتاج نموذج عالم مهيأ بالحركة يدعم التخطيط بدون طلقة. يقوم الروبوت بتوليد تسلسلات حركة مرشحة، ويدفعها للأمام عبر نموذج العالم، ويختار النموذج الذي تتطابق نتيجته المتوقعة مع صورة الهدف بشكل أفضل. يعمل هذا على الأشياء والبيئات التي لم تر من قبل أثناء التدريب.
كفاءة البيانات هي العنوان التقني الحقيقي. 62 ساعة تكاد تكون معدومة. تشير إلى أن التدريب المسبق الذاتي الإشراف على الفيديو المتنوع يمكن أن يحقق معرفة مادية سابقة كافية بحيث لا تحتاج إلى بيانات خاصة بالمجال إلا قليلا جدا في المستقبل. هذه حجة قوية لتصميم JEPA — إذا كانت تمثيلاتك جيدة بما فيه الكفاية، فلست بحاجة إلى تنفيذ كل مهمة بالقوة من الصفر.
مختبرات AMI هي جهد لي كون لدفع هذا الأمر إلى ما هو أبعد من البحث. هم يستهدفون الرعاية الصحية والروبوتات أولا، وهذا منطقي بالنظر إلى قوة JEPA في التفكير الجسدي مع البيانات المحدودة. لكن هذا رهان بعيد المدى — فقد قال الرئيس التنفيذي صراحة إن المنتجات التجارية قد تكون بعيدة عن سنوات.
---
2. الذكاء المكاني (نماذج العالم ثلاثية الأبعاد)
الممثل: مختبرات العالم (@drfeifei)
حيث يسأل JEPA "ماذا سيحدث بعد ذلك"، يطرح نهج في-في لي سؤالا: "كيف يبدو العالم في الأبعاد ثلاثية الأبعاد، وكيف يمكنني بنائه؟"
الأطروحة هي أن الفهم الحقيقي يتطلب بنية مكانية صريحة — الهندسة، العمق، الاستمرارية، والقدرة على إعادة مراقبة المشهد من وجهات نظر جديدة — وليس فقط التنبؤ الزمني.
هذا رهان مختلف عن JEPA: بدلا من تعلم الديناميكيات المجردة، تتعلم تمثيلا ثلاثي الأبعاد منظم للبيئة يمكنك التلاعب به مباشرة.
منتجهم Marble ينشئ بيئات ثلاثية الأبعاد دائمة من الصور أو النصوص أو الفيديو أو التصاميم ثلاثية الأبعاد. "مستمر" هي الكلمة المفتاحية — فعلى عكس نموذج توليد الفيديو الذي ينتج تسلسلا خطيا من الإطارات، فإن مخرجات ماربل هي مشاهد ثلاثية الأبعاد فعلية ذات تماسك مكاني. يمكنك الدوران حول الكاميرا، تعديل الأشياء، تصدير الشبكات. وهذا يجعله أقرب إلى أداة إنشاء ثلاثية الأبعاد منه إلى نموذج تنبؤي، وهو نموذج متعمد ومقصود.
للسياق، هذا يبني على سلسلة من العمل في تمثيل الأبعاد العصبية ثلاثية الأبعاد (NeRFs، التشطيخ الغاوسي ثلاثي الأبعاد) لكنه يدفع نحو التوليد بدلا من إعادة البناء. بدلا من التقاط مشهد حقيقي من صور متعددة الوجهات نظر، يقوم ماربل بتلخيص مشاهد جديدة معقولة من مدخلات قليلة. التحدي يكمن في الحفاظ على المعقولية الفيزيائية — هندسة متسقة، إضاءة معقولة، حجب معقول — عبر عالم مولد لم يكن موجودا أبدا.
---
3. المحاكاة المكتسبة (فيديو توليدي + التعلم القريب في الفضاء الكامن)
الممثلون: Google DeepMind (Genie 3، Dreamer V3/V4)، Runway GWM-1
تجمع هذه الفئة سلالتين تتقاربان بسرعة: نماذج الفيديو التوليدية التي تتعلم محاكاة العوالم التفاعلية، ووكلاء التعلم الواقعي الذين يتعلمون نماذج العوالم لتدريب السياسات على الخيال.
سلسلة جيل الفيديو. لعبة Genie 3 من DeepMind هي الأنقى نسخة — رسالة نصية دخول، بيئة قابلة للتنقل، 24 إطارا في الثانية بدقة 720p، مع ثبات لبضع دقائق. بدلا من الاعتماد على محاكي يدوي الصنع بشكل صريح، يتعلم الديناميكيات التفاعلية من البيانات. الخاصية المعمارية الرئيسية هي التوليد التلقائي المشروط على إجراءات المستخدم: يتم توليد كل إطار بناء على جميع الإطارات السابقة بالإضافة إلى الإدخال الحالي (التحرك إلى اليسار، النظر للأعلى، إلخ). هذا يعني أن النموذج يجب أن يحافظ على ذاكرة مكانية ضمنية — ابتعد عن شجرة ثم يعود، ويجب أن يبقى موجودا. يبلغ DeepMind عن الاتساق حتى حوالي دقيقة واحدة، وهو أمر مثير للإعجاب لكنه لا يزال بعيدا عما تحتاجه لتدريب مستمر على الوكلاء.
يعتمد GWM-1 من Runway على أساس مشابه — التنبؤ التلقائي بالإطارات المبني على Gen-4.5 — لكنه ينقسم إلى ثلاثة منتجات: العوالم، والروبوتات، والأفاتار. التقسيم إلى عوالم / أفاتارز / روبوتات يشير إلى أن مشكلة العمومية العملية لا تزال تتحلل بسبب مساحة الفعل وحالة الاستخدام.
سلالة RL. سلسلة الحالمين لها تاريخ فكري أطول. الفكرة الأساسية هي النظيفة: تعلم نموذج ديناميكيات كامنة من الملاحظات، ثم طرح مسارات متخيلة في الفضاء الكامن وتحسين سياسة عبر الانتشار العكسي من خلال توقعات النموذج. الوكيل لا يحتاج أبدا إلى التفاعل مع البيئة الحقيقية أثناء تعلم السياسات.
كان دريمر V3 أول ذكاء اصطناعي يحصل على الألماس في ماينكرافت بدون بيانات بشرية. Dreamer 4 فعلت الشيء نفسه تماما دون اتصال — بدون تفاعل مع البيئة على الإطلاق. من الناحية المعمارية، انتقل دريمر 4 من سلالة دريمر المتكررة السابقة إلى وصفة نموذج عالمي تعتمد على المحولات بشكل أكثر قابلية للتوسع، وقدم "التوجيه المختصر للطرق" — وهو هدف تدريبي يسمح للنموذج بالقفز من التنبؤات الصاخبة إلى النظيفة في 4 خطوات فقط بدلا من 64 نموذجا شائعا في نماذج الانتشار. وهذا ما يجعل الاستدلال في الوقت الحقيقي على H100 واحد ممكنا.
هاتان السلالتان الفرعيتان كانتا تشعران بالتميز سابقا: توليد الفيديو ينتج بيئات بصرية، بينما نماذج العالم في الواقع ينتج سياسات مدربة.
لكن Dreamer 4 طمس الخط — يمكن للبشر الآن اللعب داخل نموذج عالمه بشكل تفاعلي، ويتم استخدام Genie 3 لتدريب عملاء SIMA في DeepMind.
نقطة التقارب هي أن كلاهما يحتاج إلى نفس الشيء: نموذج يمكنه محاكاة كيفية تأثير الأفعال على البيئات بدقة عبر آفاق ممتدة.
السؤال المفتوح لهذه الفئة هو سؤال يطرحه لي كون باستمرار: هل تعلم توليد بكسلات تبدو صحيحة فيزيائيا يعني فعلا أن النموذج يفهم الفيزياء؟ أم أن المظهر يتطابق مع النمط؟ قدرة دريمر 4 على الحصول على الألماس في ماينكرافت من الخيال البحت هي نقطة تقابلة قوية تجريبيا، لكنها أيضا لعبة تحتوي على آليات متقطعة وقابلة للتعلم — فالعالم الحقيقي أكثر فوضى.
---
4. البنية التحتية الفيزيائية للذكاء الاصطناعي (منصة المحاكاة)
الممثل: NVIDIA كوزموس
خطة NVIDIA هي ألا تبني نموذج العالم، بل تبني المنصة التي يستخدمها الآخرون لبناء نموذجهم.
تم إطلاق كوزموس في معرض CES يناير 2025 ويغطي الحزمة الكاملة — خط أنابيب تنسيق البيانات (معالجة 20 مليون ساعة فيديو في 14 يوما على بلاكويل، مقابل 3+ سنوات على وحدة المعالجة المركزية)، وتوكنيزر بصري بضغط أفضل ب8 مرات من SOTA السابق، وتدريب النماذج عبر NeMo، والنشر عبر خدمات NIM المصغرة.
نماذج الأساس العالمية المدربة مسبقا يتم تدريبها على 9,000 تريليون رمز من 20 مليون ساعة من الفيديو الواقعي تشمل بيانات القيادة والصناعة والروبوتات والنشاط البشري.
تأتي هذه الرموز في عائلتين معماريتين: تعتمد على الانتشار (تعمل على رموز كامنة مستمرة) وتعتمد على المحول التلقائي (التنبؤ بالرمز التالي على الرموز المتقطعة). يمكن ضبط كلاهما بدقة لمجالات معينة.
ثلاث عائلات نموذجية تجلس فوق هذا.
Predict يولد حالات فيديو مستقبلية من مدخلات نصية أو صورة أو فيديو — وهو في الأساس توقع فيديو يمكن تدريبه لاحقا على سيناريوهات محددة للروبوتات أو القيادة.
Transfer يتعامل مع تكييف النطاق من المحاكاة إلى الواقع، وهو أحد المشاكل المستمرة في الذكاء الاصطناعي الفيزيائي — حيث يعمل نموذجك بشكل ممتاز في المحاكاة لكنه يتعطل في العالم الحقيقي بسبب الفجوات البصرية والديناميكية.
العقل (الذي أضيف في GTC 2025) يجلب سلسلة التفكير حول المشاهد المادية — الوعي الزماني المكاني، الفهم السببي للتفاعلات، الأسئلة والأجوبة بالفيديو.
---
5. الاستدلال النشط
الممثل: VERSES AI (كارل فريستون)
هذا هو الاستثناء في القائمة — ليس من تقليد التعلم العميق على الإطلاق، بل من علم الأعصاب الحاسوبي.
يقول مبدأ الطاقة الحرة لكارل فريستون إن الأنظمة الذكية تولد باستمرار تنبؤات حول بيئتها وتعمل على تقليل المفاجأة (تقنيا: الطاقة الحرة المتغيرة، وهي حد أعلى للمفاجأة).
حيث يؤطر التعلم المعزز القياسي عادة حول تعظيم المكافأة، يؤطر الاستدلال النشط السلوك على أنه تقليل الطاقة الحرة المتوقعة / التنوعية، مما يمزج التفضيلات الموجهة نحو الهدف مع القيمة المعرفية. وهذا يؤدي إلى سلوك استكشاف طبيعي: ينجذب الوكيل إلى مواقف يكون فيها غير مؤكد، لأن حل عدم اليقين يقلل من الطاقة الحرة.
بنت VERSES مشروع AXIOM (الاستدلال الفعال مع نماذج الكائنات المركزية) على هذا الأساس.
البنية مختلفة جوهريا عن نماذج عوالم الشبكات العصبية. بدلا من تعلم تقريب دالة أحادية، يحافظ AXIOM على نموذج توليدي منظم حيث كل كيان في البيئة كائن منفصل له سمات وعلاقات مصنفة.
الاستدلال بايزي — المعتقدات هي توزيعات احتمالية يتم تحديثها عبر تمرير الرسالة، وليس عبر النزول التدرجي. هذا يجعله قابلا للتفسير (يمكنك فحص ما يعتقده الوكيل عن كل كائن)، وتركيبيا (إضافة نوع كائن جديد دون إعادة تدريب)، وفعال جدا في البيانات.
في عملهم في مجال الروبوتات، أظهروا إعدادا هرميا متعدد الوكلاء حيث يكون كل مفصل من ذراع الروبوت وكيل استدلالات نشط خاص به. يتولى الوكلاء على المستوى المشترك التحكم الحركي المحلي بينما يتولى الوكلاء الأعلى تخطيط المهام، وجميعهم ينسقون من خلال معتقدات مشتركة في تسلسل هرمي. يتكيف النظام بأكمله في الوقت الحقيقي مع بيئات غير مألوفة دون إعادة تدريب — تقوم بنقل الكائن المستهدف ويعيد الوكيل التخطيط فورا، لأنه يقوم بالاستدلال عبر الإنترنت وليس بتنفيذ سياسة ثابتة.
لقد أرسلوا منتجا تجاريا (Genius) في أبريل 2025، ومعايير AXIOM مقارنة بمعايير التعلم المعزز تنافسية في مهام التحكم القياسية مع استخدام بيانات أقل بكثير.
---
برأيي، هذه الفئات الخمس ليست متنافسة حقا — بل تحل مشاكل فرعية مختلفة.
JEPA يضغط الفهم الجسدي.
الذكاء المكاني يعيد بناء البنية ثلاثية الأبعاد.
المحاكاة المتعلمة تدرب الوكلاء من خلال الخبرة المولدة.
NVIDIA توفر المعاول والمجارف.
يقدم الاستدلال النشط نظرية حسابية مختلفة جوهريا للذكاء.
توقعي أن الحدود بينهما تتلاشى بسرعة.
326
لقد تقاربت إلى حد كبير الاستكشاف الحدودي لمعماريات نماذج اللغة الكبيرة.
بحثت في كود محولات HuggingFace لجهاز GLM-5 الجديد من @Zai_org (zai-org/GLM-5).
إليك تفصيلا معماريا مفصلا، وما يخبرنا به عن الاتجاه الذي يتجه فيه تصميم نماذج اللغة الكبيرة.
ملخص؛ DR: من الناحية المعمارية، يتبع GLM-5 عن كثب DeepSeek-V3 مع بعض التعديلات الطفيفة في الأزرار.
تنبيه: النائب يحل محل GQA
أكبر تغيير من GLM-4.7 إلى GLM-5 هو الانتباه.
استخدم GLM-4.7 الانتباه القياسي المجمع للاستعلام (GQA) مع 96 رأس Q، و8 KV، وتوقعات منفصلة للاستعلام والمراقبة (q/k/v).
GLM-5 يتخلى عن كل ذلك ويعتمد على الانتباه الكامن متعدد الرؤوس (MLA) من DeepSeek.
في خط أنابيب MLA، تمر الاستعلامات عبر إسقاط مرحلتي على غرار LoRA:
مخفي -> q_a_proj إلى الرتبة 2048 -> RMSNorm -> q_b_proj إلى 64 رأسا * 256 خافتا.
يتم ضغط المفاتيح والقيم معا في عنق زجاجة واحد منخفض الترتيب:
> kv_a_proj مخفية إلى الرتبة 512+64 -> مقسمة إلى مسار KV كامن ومسار RoPE.
الجزء الكامن يتوسع مرة أخرى عبر kv_b_proj إلى 64 رأسا من الديمات (192 لا + 256 قيمة ديم).
هذا هو نفس تصميم MLA تماما مثل DeepSeek-V3.
GLM-5 فقط يضبط الأبعاد: q_lora_rank 2048 مقابل 1536، v_head_dim 256 مقابل 128، qk_nope_head_dim 192 مقابل 128.
kv_lora_rank (512) و qk_rope_head_dim (64) متطابقان.
أيضا، لا يوجد تحيز في أي مكان في الانتباه (attention_bias يميل افتراضيا إلى خاطئ).
كل إسقاط (q_a_proj، q_b_proj، kv_a_proj، kv_b_proj، o_proj، وجميع إسقاطات مؤشر DSA) خال من التحيز.
هذا أصبح الآن ممارسة معتادة؛ من بين النماذج الرئيسية التي صدرت في 2025، لا يزال GPT-OSS فقط يستخدم انحياز الانتباه.
DSA: الاهتمام المحدود ل DeepSeek
يعتمد GLM-5 الميزة الأصلية لتقنية DeepSeek V3.2 ذات الانتباه المتفرق (DSA) — وهي الميزة المعمارية الوحيدة التي @Zai_org يتم تسليط الضوء عليها بشكل صريح.
فئة الانتباه تحمل مكونات مؤهرسة مخصصة: wq_b، أسبوع، k_norm، و weights_proj، تستخدم لاختيار أكثر الرموز أهمية من بين أفضل 2048 (index_topk=2048) لكل خطوة انتباه بدلا من المتابعة عبر السياق الكامل.
ممرات وزارة التعليم: نفس الوصفة ونفس الأرقام
256 خبيرا موجه + خبير مشترك واحد.
نفس مستوى DeepSeek-V3 في كلا الحالتين؛ ارتفعت من 128 خبيرا موجهة في GLM-4.7.
حتى الآن، فقط سلسلة Qwen-3 أزالت الخبير المشترك — بينما الجميع يحتفظ بالخبير الآخر.
أفضل 8 خبراء تم اختيارهم لكل رمز (num_experts_per_tok=8).
التوجيه القائم على السيجمويد (وليس softmax) مع e_score_correction_bias لتوازن التحميل — لا يوجد أي فقدان إضافي، تماما مثل DeepSeek-V3.
يتم تطبيع أوزان ال top k (norm_topk_prob=صحيح)، ثم يتم تكبيرها بمقدار routed_scaling_factor = 2.5 — مطابقة لDeepSeek-V3 (استخدم GLM-4.7 1.0).
moe_intermediate_size = 2048، وهو أيضا مطابق لديبسيك-V3.
أحد التبسيطات مقابل DeepSeek-V3: يتخلى GLM-5 عن اختيار الخبراء المجمع بالكامل (n_group=1، topk_group=1).
يقسم DeepSeek-V3 256 خبيرا إلى 8 مجموعات من 32 ويختار أفضل 4 مجموعات قبل اختيار الخبراء بينهم.
GLM-5 يتخطى هذا ويفعل فقط ال 8 الأوائل المسطحة عبر جميع 256 جهازا.
وهذا يتوافق مع نهج GLM-4.7 — مما يشير إلى أن التوجيه الجماعي قد لا يكون ضروريا.
FFN / MLP: SwiGLU، كثيف الكثافة آنذاك وزارة الإمبراطورية
جميع طبقات التغذية الأمامية (FFN) تستخدم SwiGLU (وحدة خطية مجهزة مع تفعيل SiLU)، دون أي انحياز في أي إسقاط.
ينطبق هذا على شبكات FFN الكثيفة، والخبراء الموجهين، والخبراء المشاركين على حد سواء.
تتبع الطبقة ال 78 نمط كثافة ثم MoE: الطبقات الثلاث الأولى تستخدم FFN كثيف قياسي (intermediate_size=12288)، والطبقة ال75 المتبقية كلها MoE — لا يوجد تداخل كثيف/MoE داخل منطقة MoE.
يستخدم DeepSeek-V3 نفس تقسيم الثلاثة كثافات ثم MoE.
استخدم GLM-4.7 طبقة واحدة فقط من الطبقة الكثيفة الأولية.
داخل كل طبقة MoE، يكون الناتج مجموع جزأين:
(1) خليط الخبراء الموجه (أفضل 8 من أصل 256، كل منها ب intermediate_size=2048)،
و(2) خبير مشترك (أيضا intermediate_size=2048) يعالج كل رمز دون شروط.
هيكل نموذج: 78 طبقة، سياق 202 ألف
78 طبقة محول إجمالا (أعمق من 61 طبقة في DeepSeek-V3). hidden_size = 6144.
64 رأس انتباه، 64 كيلو فولت (MLA يجعل KV الفعال أرخص بكثير مما يشير إليه هذا الرقم).
RMSNorm طوال الحلقة (الحلقات = 1e-5).
حجم المفردات 154,880.
تضمينات الكلمات غير مرتبطة برأس LM بشكل افتراضي (tie_word_embeddings=خطأ).
طول السياق هو 202,752 رمزا.
يستخدم RoPE تخطيطا متداخلا (rope_interleave=صحيح)، ويستورد apply_rotary_pos_emb_interleave مباشرة من DeepSeek-V3.
يدعم الكود تكبير YaRN عبر yarn_get_mscale، لكن rope_theta و rope_type يتم ضبطهما في config.json النموذج بدلا من أن يكون مرمزا في المصدر.
MTP: التنبؤ بعدة رموز
التنبؤ بعدة رموز هو تقنية تدريبية (شاعت بواسطة DeepSeek-V3) حيث يتعلم النموذج التنبؤ بعدة رموز مستقبلية في نفس الوقت من خلال رؤوس توقع إضافية، مما يحسن جودة التمثيل.
تستخدم هذه الرؤوس الإضافية فقط أثناء التدريب وتتخلص منها عند وقت الاستدلال.
يبدو أن GLM-5 يستخدم MTP، حيث تحتوي نقطة التحقق على أوزان لطبقة فك التشفير رقم 79 (model.layers.78)، وهي أوزان تتجاوز 78 طبقة منتظمة (مؤشرات 0-77).
كود المحولات يتخطى هذه الأوزان الإضافية صراحة عند تحميل النموذج.
يظهر كل من DeepSeek-V3 وGLM-4.7 نفس النمط — أوزان طبقات إضافية في نقطة التفتيش، يتم تجاهلها عند وقت التحميل — وهذا يتماشى مع الطريقة التي يتم بها عادة شحن وتخلص رؤوس تدريب MTP.
ماذا يعني هذا
لم تستعير GLM-5 بعض الأفكار من DeepSeek فقط.
هو
- استبدلت آلية الانتباه الكاملة (GQA -> MLA)
- DSA المعتمد
- تم اعتماد توجيه MoE السيجمويد مع e_score_correction_bias
- ضاعف عدد الخبراء لمطابقة عدد خبراء ديب سيك البالغ 256،
- مطابقة عامل مقياس التوجيه (2.5)، حجم متوسط خبير (2048)، وعدد الطبقات الكثيفة الأولية (3)
- واعتمدت MTP.
الشيء الوحيد الذي احتفظ به GLM-5 بوضوح من سلالة GLM-4.7 الخاصة به — حيث يختلف عن DeepSeek-V3 — هو التوجيه المسطح للأعلى بدون اختيار مجمع (n_group=1 مقابل 8 في DeepSeek).
ومع ذلك، هذا ليس أمرا سيئا.
عندما يتخلى مختبر كبير عن أصوله المعمارية ويعيد البناء بناء على مخطط منافس — متطابقا ليس فقط مع أنماط التصميم بل العديد من المعايير الفائقة الرئيسية — فهذا يعني أن مساحة التصميم قد تم استكشافها.
MLA + سيجمويد MoE + خبراء مشتركين + عدم فقدان AUX + DSA + MTP أصبحت الوصفة القياسية لوزارة التربية.
تتناقص عودة الحداثة المعمارية.
الفرق (في الوقت الحالي) يكمن أكثر في تنسيق البيانات، وصفات التدريب، وبنية الاستدلال التحتية، وأقل في كتلة المحول نفسها (لكن ربما نرى تغييرات معمارية أكثر، أو حتى كتل غير محولات في المستقبل).
294
هذا فوز كبير للمطورين.
كود كلود ممتاز، لكن خطة ماكس بسعر 200 دولار في الشهر قد تكون مكلفة للاستخدام اليومي.
يعمل GLM-5 ضمن كود كلود، مع أداء (يمكن القول) مماثل بتكلفة ~1/3.
يستغرق الإعداد ~ دقيقة واحدة:
• تثبيت كود كلود كالمعتاد
• شغل 'npx @z-ai/coding-helper' واتبع الخطوات
ملاحظة واحدة: إعادة كود كلود إلى Anthropic أصبحت مرهقة بعض الشيء اليوم (سيكون من الجيد لو دعمت أداة المساعدة ذلك).
حاليا ستحتاج إلى التبديل يدويا:
1. افتح ~/.claude/settings.json
سترى شيئا مثل:
"env": {
"ANTHROPIC_AUTH_TOKEN": "your_zai_api_key",
"ANTHROPIC_BASE_URL": "
"API_TIMEOUT_MS": "3000000"
}
2. إزالة على الأقل:
• ANTHROPIC_AUTH_TOKEN
• ANTHROPIC_BASE_URL
في كلتا الحالتين، هذا إنجاز كبير—وسعر وأداء أدوات البرمجة يتحرك بسرعة بالفعل!

Z.ai12 فبراير 2026
تقديم GLM-5: من ترميز الوايز إلى الهندسة الوكائلية
تم تصميم GLM-5 لتصميم هندسة الأنظمة المعقدة والمهام الوكائلية ذات الأفق البعيد. مقارنة ب GLM-4.5، يتدرج من 355 مليار پارامتر (32 مليار نشط) إلى 744 مليار (40 مليار نشط)، مع نمو بيانات ما قبل التدريب من 23 مليون إلى 28.5 ترون.
جربها الآن:
الأوزان:
مدونة التقنية:
OpenRouter (سابقا Pony Alpha):
الانتشار من مستخدمي Coding Plan Max:

370
الأفضل
المُتصدِّرة
التطبيقات المفضلة