DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Artificial Analysis

Analiza independentă a modelelor AI și a furnizorilor de găzduire - alegeți cel mai bun model și furnizor API pentru cazul dvs.

Alibaba a lansat 4 modele noi Qwen3.5, de la 0.8B la 9B. 9B (Raționament, 32 pe Indicele de Inteligență) este cel mai inteligent model sub parametrii 10B, iar 4B (Raționament, 27) cel mai inteligent sub 5B, dar ambele folosesc jetoane de ieșire de 200M+ pentru a rula Indicele de Inteligență @Alibaba_Qwen a extins familia Qwen3.5 cu patru modele mai mici și dense: 9B (Raționament, 32 pe Indicele de Inteligență), 4B (Raționament, 27), 2B (Raționament, 16) și 0.8B (Raționament, 9). Acestea completează modelele mai mari 397B, 27B, 122B A10B și 35B A3B lansate la începutul acestei luni. Toate modelele sunt licențiate Apache 2.0, suportă context 262K, includ suport nativ pentru viziune și folosesc aceeași abordare hibridă unificată gândire/non-gândire ca restul familiei Qwen3.5 Rezultate cheie de benchmarking pentru variantele de raționament: ➤ 9B și 4B sunt cele mai inteligente modele la clasele lor de dimensiune respective, înaintea tuturor celorlalte modele sub parametrii 10B. Qwen3.5 9B (32) obține aproximativ dublul modelelor apropiate sub 10B: Falcon-H1R-7B (16) și NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27) depășește toate acestea, deși are aproximativ jumătate din parametri. Toate cele patru modele mici Qwen3.5 se află pe frontiera Pareto a graficului Inteligență vs. Parametri Totali ➤ Generația Qwen3.5 reprezintă o creștere materială a inteligenței față de Qwen3 la toate dimensiunile modelelor sub 10B, cu câștiguri mai mari la un număr total mai mare de parametri. Comparând variantele de raționament: Qwen3.5 9B (32) este cu 15 puncte înaintea Qwen3 VL 8B (17), 4B (27) câștigă 9 puncte față de Qwen3 4B 2507 (18), 2B (16) este cu 3 puncte înaintea Qwen3 cu 1.7B (estimat 13), iar 0.8B (9) câștigă 2,5 puncte față de Qwen3 0.6B (6,5). ➤ Toate cele patru modele folosesc jetoane de ieșire de 230-390M pentru a rula Indicele de Inteligență, semnificativ mai mult decât frații mai mari Qwen3.5 și predecesorii Qwen3. Qwen3.5 2B folosea ~390M tokenuri de ieșire, 4B ~240M, 0.8B ~230M, iar 9B ~260M. Pentru context, mult mai marele Qwen3.5 27B folosea 98M, iar nava amiral 397B folosea 86M. Aceste număruri de jetoane depășesc și majoritatea modelelor frontier: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) și GLM-5 Reasoning (109M) ➤ AA-Omnisciența este o slăbiciune relativă, cu rate de halucinații de 80-82% pentru 4B și 9B. Qwen3.5 4B scor -57 la AA-Omniscience, cu o rată de halucinații de 80% și o acuratețe de 12,8%. Qwen3.5 9B scorul -56 cu 82% halucinații și 14,7% acuratețe. Acestea sunt marginal mai bune decât predecesorii lor Qwen3 (Qwen3 4B 2507: -61, 84% halucinații, 12,7% acuratețe), îmbunătățirea fiind determinată în principal de rate mai scăzute de halucinații, nu de o acuratețe mai mare. ➤ Modelele Qwen3.5 sub-10B combină inteligență ridicată cu vedere nativă la o scară anterior indisponibilă. Pe MMMU-Pro (raționament multimodal), Qwen3.5 9B obține 69,2%, iar 4B 65,4%, înaintea Qwen3 VL 8B (56,6%), Qwen3 VL 4B (52,0%) și Ministral 3 8B (46,0%). Qwen3.5 0.8B obține un scor de 25,8%, ceea ce este notabil pentru un model sub 1B Alte informații: ➤ Fereastră de context: 262K jetoane ➤ Licență: Apache 2.0 ➤ Cuantificare: Greutățile native sunt BF16. Alibaba nu a lansat cuantizări GPTQ-Int4 first-party pentru aceste modele mici, deși a făcut-o pentru modelele mai mari din familia Qwen3.5 lansate anterior (27B, 35B-A3B, 122B-A10B, 397B-A17B). În cuantizarea pe 4 biți, toate cele patru modele sunt accesibile pe hardware de consum ➤ Disponibilitate: La momentul publicării, nu există API-uri serverless first-party sau terțe care să găzduiască aceste modele

Alibaba și-a extins familia de modele Qwen3.5 cu 3 modele noi – modelul 27B este un remarcat, obținând un scor 42 pe Artificial Analysis Intelligence Index și comparând modelele cu greutăți deschise de 8-25 de ori mai mari decât el @Alibaba_Qwen a extins familia Qwen3.5 cu trei modele noi, alături de flagship 397B lansat la începutul acestei luni: Qwen3.5 27B (Dense, obținând 42 la Intelligence Index), Qwen3.5 122B A10B (MoE, 42) și Qwen3.5 35B A3B (MoE, 37). Cele două modele MoE (Mix-of-Experts) activează doar o fracțiune din parametrii totali pe fiecare trecere înainte (10B din 122B și ~3B din 35B, respectiv). Indicele de Inteligență este metrica noastră de sinteză care include 10 evaluări care acoperă raționamentul general, sarcinile agențice, codarea și raționamentul științific. Toate modelele sunt licențiate Apache 2.0, suportă nativ contextul 262K și revin la arhitectura hibridă unificată gândire/non-gândire de la Qwen3 original, după ce Alibaba a trecut la puncte de control separate pentru Instruct și Reasoning odată cu actualizările Qwen3 2507. Rezultate cheie de benchmarking pentru variantele de raționament: ➤ Qwen3.5 27B obține scorul 42 la Indicele de Inteligență și este cel mai inteligent model sub 230B. Cel mai apropiat model de dimensiuni similare este GLM-4.7-Flash (total 31B, 3B activ) care are un scor 30. Modelele cu greutăți deschise de inteligență echivalentă sunt de 8-25 de ori mai mari în termeni de parametri totali: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) și GLM-4.7 (357B, 42). În precizia FP8 este nevoie de ~27GB pentru a stoca greutățile modelelor, în timp ce în cuantizarea pe 4 biți poți folosi hardware de calitate laptop cu 16GB+ RAM ➤ Qwen3.5 27B scoruri 1205 la GDPval-AA (Agentic Real-World Work Tasks), plasându-l alături de modele mai mari. Pentru context, MiniMax-M2.5 obține 1206, GLM-4.7 (Raționament) 1200, iar DeepSeek V3.2 (Raționament) 1194. Acest lucru este deosebit de notabil pentru un model cu 27B parametri și sugerează o capacitate agentică puternică pentru dimensiunea sa. GDPval-AA testează modele pe sarcini reale din 44 de ocupații și 9 industrii majore ➤ AA-Omnisciența rămâne o slăbiciune relativă în familia Qwen3.5, determinată în principal de o acuratețe mai scăzută decât de rata halucinațiilor. Qwen3.5 27B obține -42 la AA-Omnisciență, comparabil cu MiniMax-M2.5 (-40), dar în spatele DeepSeek V3.2 (-21) și GLM-4.7 (-35). Deși rata halucinațiilor Qwen3.5 27B (80%) este mai mică decât a concurenților (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), acuratețea sa este de asemenea mai mică, 21% față de 34% pentru DeepSeek V3.2 și 29% pentru GLM-4.7. Aceasta este probabil o consecință a dimensiunii modelului – am observat, în general, că modelele cu mai mulți parametri totali au performanțe mai bune la acuratețe în AA-Omniscience, deoarece reamintirea mai largă a cunoștințelor beneficiază de un număr mai mare de parametri ➤ Qwen3.5 27B este echivalent inteligent cu Qwen3.5 122B A10B. 122B A10B este un model Mix-of-Experts care activează doar 10B din cei 122B parametri totali pe fiecare trecere înainte. Modelul 27B conduce la GDPval-AA (1205 Elo vs 1145 Elo) și ușor la TerminalBench (+1,5 p.p.), în timp ce modelul 122B conduce la SciCode (+2,5 p.p.), HLE (+1,2 p.p.) și are o rată mai mică de halucinații (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Raționament, 37) este cel mai inteligent model cu ~3B parametri activi, cu 7 puncte înaintea GLM-4.7-Flash (30). Alte modele din această categorie activă ~3B includ Qwen3 Coder Next (80B total, 28), Qwen3 Next 80B A3B (27) și NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B a folosit 98M tokenuri de ieșire pentru a rula Intelligence Index, costând ~$299 prin Alibaba Cloud API. Aceasta este o utilizare notabil de mare de tokenuri comparativ cu modele cu inteligență similară: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) și chiar mai marele Qwen3.5 397B (86M). Alte informații: ➤ Fereastră de context: 262K tokenuri (extensibile până la 1M prin YaRN) ➤ Licență: Apache 2.0 ➤ Prețuri API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 la 1M tokenuri de intrare/ieșire

Limită superioară

Clasament

Favorite