متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

Artificial Analysis

تحليل مستقل لنماذج الذكاء الاصطناعي وموفري الاستضافة - اختر أفضل نموذج ومزود واجهة برمجة تطبيقات لحالة الاستخدام الخاصة بك

وسعت علي بابا عائلة طرازات Qwen3.5 بثلاثة نماذج جديدة - حيث يميز طراز 27B حيث حصل على تقييم 42 في مؤشر الذكاء التحليلي الاصطناعي، ويتناسب مع نماذج الأوزان المفتوحة التي تزيد حجمه ب 8-25 ضعف حجمه وسعت @Alibaba_Qwen عائلة Qwen3.5 بثلاثة طرازات جديدة إلى جانب النسخة الرائدة 397B التي صدرت في وقت سابق من هذا الشهر: Qwen3.5 27B (كثيف، وحصل على تقييم 42 في مؤشر الذكاء)، Qwen3.5 122B A10B (MoE، 42)، وQwen3.5 35B A3B (MoE، 37). ينشط نموذجا MoE (خليط الخبراء) جزءا فقط من إجمالي المعاملات في كل تمريرة أمامية (10B من 122B و~3B من 35B على التوالي). مؤشر الذكاء هو مقياس التوليف لدينا الذي يجمع بين 10 تقييمات تغطي التفكير العام، والمهام الوكالية، والترميز، والتفكير العلمي. جميع النماذج مرخصة من Apache 2.0، وتدعم بشكل أصلي سياق 262K، وتعود إلى البنية الهجينة الموحدة للتفكير/عدم التفكير من Qwen3 الأصلية، بعد أن انتقلت علي بابا إلى نقاط تفتيش منفصلة للتوجيه والاستدلال مع تحديثات Qwen3 2507. نتائج المقارنة الرئيسية لمتغيرات المنطق: ➤ Qwen3.5 27B يحصل على تقييم 42 في مؤشر الذكاء وهو النموذج الأكثر ذكاء تحت 230B. أقرب نموذج بحجم مشابه هو GLM-4.7-Flash (إجمالي 31 ألباب، 3 مليار نشط) والذي حصل على 30 نقطة. نماذج الأوزان المفتوحة ذات الذكاء المكافئ أكبر ب 8-25 مرة من حيث المعلمات الإجمالية: MiniMax-M2.5 (230B، 42)، DeepSeek V3.2 (685B، 42)، وGLM-4.7 (357B، 42). في دقة FP8 يحتاج تخزين أوزان النماذج ~27 جيجابايت، بينما في التكميم 4-بت يمكنك استخدام أجهزة بجودة لابتوب مع ذاكرة RAM تبلغ 16GB+ ➤ Qwen3.5 27B يحصل على تقييم 1205 في GDPval-AA (مهام العمل الواقعية الوكائلية)، مما يضعه إلى جانب النماذج الأكبر. للسياق، MiniMax-M2.5 يحصل على 1206، وGLM-4.7 (Reasoning) 1200، وDeepSeek V3.2 (Reasoning) 1194. وهذا ملحوظ بشكل خاص لنموذج معامل 27B ويشير إلى قدرة وكالية قوية بالنسبة لحجمه. يختبر GDPval-AA نماذج على المهام الواقعية عبر 44 مهنة و9 صناعات رئيسية ➤ لا تزال AA-المعرفة الشاملة نقطة ضعف نسبية عبر عائلة Qwen3.5، مدفوعة أساسا بانخفاض الدقة أكثر من معدل الهلوسات. Qwen3.5 27B يحصل على تقييم -42 في AA-Omniscience، وهو تقييم مشابه ل MiniMax-M2.5 (-40) لكنه خلف DeepSeek V3.2 (-21) وGLM-4.7 (-35). على الرغم من أن معدل الهلوسة لدى Qwen3.5 27B (80٪) أقل من نظيراتها (GLM-4.7 90٪، MiniMax 89٪، DeepSeek 82٪)، إلا أن دقته أقل أيضا عند 21٪ مقابل 34٪ ل DeepSeek V3.2 و29٪ ل GLM-4.7. من المحتمل أن يكون هذا نتيجة لحجم النموذج - فقد لاحظنا عموما أن النماذج التي تحتوي على معلمات إجمالية أكثر تؤدي أداء أفضل في الدقة في AA-Omniscience، حيث تستفيد استرجاع المعرفة الأوسع من عدد أكبر من المعلمات ➤ Qwen3.5 27B يعادل الذكاء Qwen3.5 122B A10B. نموذج 122B A10B هو نموذج مزيج من الخبراء يفعل فقط 10B من مجموع 122B معاملاته في كل تمريرة أمامية. نموذج 27B يتصدر في GDPval-AA (1205 Elo مقابل 1145 Elo) وقليلا على TerminalBench (+1.5 p.p.)، بينما نموذج 122B يتصدر SciCode (+2.5 p.p.)، HLE (+1.2p.p.)، ومعدل هلوسة أقل (Omniscience -40 مقابل -42) ➤ Qwen3.5 35B A3B (المنطق، 37) هو النموذج الأكثر ذكاء مع ~3B معلمات نشطة، متقدما ب 7 نقاط على GLM-4.7-Flash (30). تشمل النماذج الأخرى في هذه الفئة النشطة ~3B كوين3 كودر نيكست (إجمالي 80 ب)، كوين3 نكست 80B A3B (27)، وNVIDIA Nemotron 3 Nano 30B A3B (24) ➤ استخدم Qwen3.5 27B 98 مليون رمز إخراج لتشغيل مؤشر الذكاء، بتكلفة ~$299 عبر واجهة Alibaba Cloud API. وهذا يعد استخداما عاليا للرموز مقارنة بالنماذج ذات الذكاء المماثل: MiniMax-M2.5 (56M)، DeepSeek V3.2 (61M)، وحتى Qwen3.5 397B الأكبر (86M). معلومات أخرى: ➤ نافذة السياق: 262 ألف رمز (يمكن تمديده إلى 1M عبر YaRN) ➤ الرخصة: Apache 2.0 ➤ تسعير API (سحابة علي بابا): 397 مليون: 0.60 دولار/3.60 دولار، 122 مليار: 0.40 دولار/3.20 دولار، 27 مليون: 0.30 دولار/2.40 دولار، 35 مليار A3B: 0.25 دولار/2.00 دولار لكل مليون رمز إدخال/إخراج

أطلقت شركة Inception Labs نموذج Mercury 2، وهو نموذج الانتشار الكبير الجاهز للإنتاج من الجيل القادم. حقق ميركوري 2 >1,000 رمز إخراج في الثانية مع مكاسب كبيرة في الذكاء تستخدم نماذج الانتشار الكبيرة ("dLLMs") في @_inception_ai بنية مختلفة مقارنة بالنماذج الذاتية المعتمدة على الانحدار. تبدأ عملية توليد نماذج اللغة الكبيرة في الانتشار بالضوضاء وتقوم بتحسين المخرج بشكل تكراري باستخدام نموذج محول يمكنه تعديل عدة رموز بالتوازي. هذا يسمح بالتوازي في توليد رموز الإخراج، مما يسمح بسرعات إخراج أسرع لأن العديد من رموز الإخراج يتم توليدها في نفس الوقت. أهم النقاط المستخلصة: ➤ من بين النماذج المماثلة من حيث الحجم/السعر، تقدم ميركوري 2 أداء تنافسيا في الذكاء مقابل سرعة الإخراج. على الرغم من أنه لا يمتلك ذكاء رائدا، إلا أن سرعة إخراجه تزيد عن 3 أضعاف أسرع نموذج في هذا الفئة (اختبارات مبنية على نقاط الطرف الأول أو متوسط عدد المزودين الذين يخدمون النموذج حيث لا تتوفر نقطة نهاية من الطرف الأول) ➤ تشمل نقاط القوة الرئيسية الترميز الوكيل واستخدام الطرفيات واتباع التعليمات. ميركوري 2 يؤدي بمستوى مشابه لهايكو كلود 4.5 على مستوى المحطة الصلبة ويحصل على 70٪ في IFBench (اتباع التعليمات)، متفوقا على GPT-OSS-120B وGPT-5.1 كودكس mini وGPT-5 nano خلفية مختبرات إنسيبشن: هذا هو الإصدار الثاني من Inception Labs. كان المؤسسون سابقا أساتذة من جامعات ستانفورد وجامعة كاليفورنيا في لوس أنجلوس وكورنيل، وساهموا في أبحاث وتقنيات الذكاء الاصطناعي بما في ذلك الانتباه السريع، ومحولات القرار، وتحسين التفضيل المباشر (DPO). انظر أدناه لمزيد من التحليل.

الأفضل

المُتصدِّرة

التطبيقات المفضلة