Alibaba випустила 4 нові моделі Qwen3.5 з 0.8B до 9B. 9B (Reasoning, 32 за індексом інтелекту) є найрозумнішою моделлю за параметрами 10B, а 4B (Reasoning, 27) — найрозумнішою за 5B, але обидві використовують токени 200M+ для запуску Індексу інтелекту @Alibaba_Qwen розширила сімейство Qwen3.5 чотирма меншими щільними моделями: 9B (Reasoning, 32 за індексом інтелекту), 4B (Reasoning, 27), 2B (Reasoning, 16) та 0.8B (Reasoning, 9). Вони доповнюють більші моделі 397B, 27B, 122B A10B та 35B A3B, випущені раніше цього місяця. Усі моделі мають ліцензію Apache 2.0, підтримують контекст 262K, мають підтримку нативного зору та використовують той самий гібридний підхід уніфікованого мислення/немислення, що й решта сімейства Qwen3.5 Ключові результати бенчмаркінгу для варіантів міркування: ➤ 9B і 4B є найрозумнішими моделями у своїх відповідних розмірних класах, випереджаючи всі інші моделі з параметрами 10B. Qwen3.5 9B (32) приблизно вдвічі перевищує наступні найближчі моделі нижче 10B: Falcon-H1R-7B (16) та NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27) перевершує всі ці показники, хоча має приблизно половину менших параметрів. Усі чотири малі моделі Qwen3.5 знаходяться на межі Парето в діаграмі інтелекту проти загальних параметрів ➤ Покоління Qwen3.5 є матеріальним підвищенням інтелекту порівняно з Qwen3 у всіх розмірах моделей нижче 10B, з більшим приростом при більшій кількості загальних параметрів. Порівнюючи варіанти міркування: Qwen3.5 9B (32) на 15 пунктів випереджає Qwen3 VL 8B (17), 4B (27) набирає 9 пунктів порівняно з Qwen3 4B 2507 (18), 2B (16) на 3 пункти випереджає Qwen3 1.7B (оцінюється 13), а 0.8B (9) на 2.5 пунктів порівняно з Qwen3 0.6B (6.5). ➤ Усі чотири моделі використовують токени 230-390M для роботи Індексу Інтелекту, що значно більше, ніж як більші Qwen3.5, так і попередники Qwen3. Qwen3.5 2B використовувала токени виводу ~390M, 4B — ~240M, 0.8B — ~230M, а 9B — ~260M. Для контексту: значно більший Qwen3.5 27B використовував 98M, а флагман 397B — 86M. Кількість цих токенів також перевищує більшість моделей Frontier: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) та GLM-5 Reasoning (109M) ➤ AA-Всезнання є відносною слабкістю, з рівнем галюцинацій 80-82% для 4B і 9B. Qwen3.5 4B має -57 на AA-Omniscience, рівень галюцинацій 80% і точність 12,8%. Qwen3.5 9B має -56 з 82% галюцинацій і точністю 14,7%. Вони трохи кращі за своїх попередників Qwen3 (Qwen3 4B 2507: -61, 84% галюцинації, 12,7% точності), причому покращення зумовлено переважно нижчим рівнем галюцинацій, а не вищою точністю. ➤ Моделі Qwen3.5 sub-10B поєднують високий інтелект із нативним зором у масштабах, які раніше були недоступні. У MMMU-Pro (мультимодальне мислення) Qwen3.5 9B набирає 69,2%, а 4B — 65,4%, випереджаючи Qwen3 VL 8B (56,6%), Qwen3 VL 4B (52,0%) та Ministral 3 8B (46,0%). Qwen3.5 0.8B набирає 25,8%, що є помітним для моделі нижче 1B Інша інформація: ➤ Контекстне вікно: 262K токенів ➤ Ліцензія: Apache 2.0 ➤ Квантування: Рідні ваги — BF16. Alibaba не випускала оригінальні квантування GPTQ-Int4 для цих малих моделей, хоча це зробило для більших моделей сімейства Qwen3.5, які були випущені раніше (27B, 35B-A3B, 122B-A10B, 397B-A17B). У 4-бітній квантуванні всі чотири моделі доступні на споживчому апаратному забезпеченні ➤ Доступність: На момент публікації не існує сторонніх або сторонніх серверних API, які розміщують ці моделі
Покоління Qwen3.5 — це крокова зміна в інтелекті малих моделей порівняно з Qwen3. 9B отримує 15 пунктів порівняно з Qwen3 VL 8B (з 17 до 32), 4B на 9 пунктів порівняно з Qwen3 4B 2507 (18 до 27), 2B на 3 пункти порівняно з Qwen3 1,7B (13 до 16), а 0,8B на 2,5 пункти порівняно з Qwen3 0,6B (6,5 до 9).
Зростання інтелекту відбувається за рахунок високого використання токенів порівняно з колегами. Усі чотири моделі Qwen3.5 нижче 10B використовують токени 230M+ для роботи Індексу Інтелекту — це значно більше, ніж у більшості моделей Frontier та попередників Qwen3
Моделі Qwen3.5 9B і 4B є найрозумнішими мультимодальними моделями з параметрами 15B. На MMMU-Pro Qwen3.5 9B (69%) та 4B (65%) лідирують у всіх моделях нижче 15B
Розподіл індивідуальних результатів для всіх 4 моделей
Порівняйте сімейство Qwen3.5 з іншими провідними моделями на:
8,44K