Alibaba și-a extins familia de modele Qwen3.5 cu 3 modele noi – modelul 27B este un remarcat, obținând un scor 42 pe Artificial Analysis Intelligence Index și comparând modelele cu greutăți deschise de 8-25 de ori mai mari decât el @Alibaba_Qwen a extins familia Qwen3.5 cu trei modele noi, alături de flagship 397B lansat la începutul acestei luni: Qwen3.5 27B (Dense, obținând 42 la Intelligence Index), Qwen3.5 122B A10B (MoE, 42) și Qwen3.5 35B A3B (MoE, 37). Cele două modele MoE (Mix-of-Experts) activează doar o fracțiune din parametrii totali pe fiecare trecere înainte (10B din 122B și ~3B din 35B, respectiv). Indicele de Inteligență este metrica noastră de sinteză care include 10 evaluări care acoperă raționamentul general, sarcinile agențice, codarea și raționamentul științific. Toate modelele sunt licențiate Apache 2.0, suportă nativ contextul 262K și revin la arhitectura hibridă unificată gândire/non-gândire de la Qwen3 original, după ce Alibaba a trecut la puncte de control separate pentru Instruct și Reasoning odată cu actualizările Qwen3 2507. Rezultate cheie de benchmarking pentru variantele de raționament: ➤ Qwen3.5 27B obține scorul 42 la Indicele de Inteligență și este cel mai inteligent model sub 230B. Cel mai apropiat model de dimensiuni similare este GLM-4.7-Flash (total 31B, 3B activ) care are un scor 30. Modelele cu greutăți deschise de inteligență echivalentă sunt de 8-25 de ori mai mari în termeni de parametri totali: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) și GLM-4.7 (357B, 42). În precizia FP8 este nevoie de ~27GB pentru a stoca greutățile modelelor, în timp ce în cuantizarea pe 4 biți poți folosi hardware de calitate laptop cu 16GB+ RAM ➤ Qwen3.5 27B scoruri 1205 la GDPval-AA (Agentic Real-World Work Tasks), plasându-l alături de modele mai mari. Pentru context, MiniMax-M2.5 obține 1206, GLM-4.7 (Raționament) 1200, iar DeepSeek V3.2 (Raționament) 1194. Acest lucru este deosebit de notabil pentru un model cu 27B parametri și sugerează o capacitate agentică puternică pentru dimensiunea sa. GDPval-AA testează modele pe sarcini reale din 44 de ocupații și 9 industrii majore ➤ AA-Omnisciența rămâne o slăbiciune relativă în familia Qwen3.5, determinată în principal de o acuratețe mai scăzută decât de rata halucinațiilor. Qwen3.5 27B obține -42 la AA-Omnisciență, comparabil cu MiniMax-M2.5 (-40), dar în spatele DeepSeek V3.2 (-21) și GLM-4.7 (-35). Deși rata halucinațiilor Qwen3.5 27B (80%) este mai mică decât a concurenților (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), acuratețea sa este de asemenea mai mică, 21% față de 34% pentru DeepSeek V3.2 și 29% pentru GLM-4.7. Aceasta este probabil o consecință a dimensiunii modelului – am observat, în general, că modelele cu mai mulți parametri totali au performanțe mai bune la acuratețe în AA-Omniscience, deoarece reamintirea mai largă a cunoștințelor beneficiază de un număr mai mare de parametri ➤ Qwen3.5 27B este echivalent inteligent cu Qwen3.5 122B A10B. 122B A10B este un model Mix-of-Experts care activează doar 10B din cei 122B parametri totali pe fiecare trecere înainte. Modelul 27B conduce la GDPval-AA (1205 Elo vs 1145 Elo) și ușor la TerminalBench (+1,5 p.p.), în timp ce modelul 122B conduce la SciCode (+2,5 p.p.), HLE (+1,2 p.p.) și are o rată mai mică de halucinații (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Raționament, 37) este cel mai inteligent model cu ~3B parametri activi, cu 7 puncte înaintea GLM-4.7-Flash (30). Alte modele din această categorie activă ~3B includ Qwen3 Coder Next (80B total, 28), Qwen3 Next 80B A3B (27) și NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B a folosit 98M tokenuri de ieșire pentru a rula Intelligence Index, costând ~$299 prin Alibaba Cloud API. Aceasta este o utilizare notabil de mare de tokenuri comparativ cu modele cu inteligență similară: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) și chiar mai marele Qwen3.5 397B (86M). Alte informații: ➤ Fereastră de context: 262K tokenuri (extensibile până la 1M prin YaRN) ➤ Licență: Apache 2.0 ➤ Prețuri API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 la 1M tokenuri de intrare/ieșire
Qwen3.5 27B se remarcă prin capacitatea agențică la dimensiunea modelului său. Cu un Elo de 1205 pe GDPval-AA, se potrivește cu modelele cu 8-25 de ori mai mulți parametri și este în urma flagship 397B (1208) cu doar 3 puncte, deși este ~14x mai mic.
Dintre modelele cu ponderi deschise cu 40B parametri totali sau mai puțini, Qwen3.5 27B și 35B A3B se remarcă ca lideri clari în Indicele de Informații. Următorul model cel mai inteligent din această categorie de dimensiuni este GLM-4.7-Flash (30)
Comparați întreaga familie Qwen3.5 cu alte modele de top la: Qwen3.5 27B Repozitoriul HuggingFace:
3,59K