DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Artificial Analysis

Tekoälymallien ja isännöintipalveluntarjoajien riippumaton analyysi - valitse paras malli ja API-palveluntarjoaja käyttötapaukseesi

Alibaba on laajentanut Qwen3.5-malliperhettään kolmella uudella mallilla – 27B-malli erottuu erinomaisesti, saaden 42 pistettä Artificial Analysis Intelligence Indexissä ja vastaten avoimia malleja, jotka ovat 8–25-kertaisia kokonsa @Alibaba_Qwen on laajentanut Qwen3.5-perhettä kolmella uudella mallilla yhdessä tämän kuun alussa julkaistun 397B-lippulaivamallin kanssa: Qwen3.5 27B (Tiheä, 42 pistettä Intelligence Indexissä), Qwen3.5 122B A10B (MoE, 42) ja Qwen3.5 35B A3B (MoE, 37). Kaksi MoE (Mixture-of-Experts) -mallia aktivoivat vain murto-osan kokonaisparametreista per eteenpäinsyöttö (10B 122B:stä ja ~3B 35B:stä). Älykkyysindeksi on synteesimittarimme, joka sisältää 10 arviointia, jotka kattavat yleisen päättelyn, agenttitehtävät, koodauksen ja tieteellisen päättelyn. Kaikki mallit ovat Apache 2.0 -lisensoituja, tukevat natiivisti 262K-kontekstia ja palaavat alkuperäisen Qwen3:n yhtenäiseen ajattelu/ei-ajattelu-hybridiarkkitehtuuriin, kun Alibaba siirtyi erottamaan Instruct- ja Reasoning-tarkistuspisteet Qwen3 2507 -päivitysten myötä. Keskeiset vertailutulokset päättelyvarianteille: ➤ Qwen3.5 27B saa 42 pistettä Älykkyysindeksissä ja on älykkäin malli alle 230B. Lähin samankokoinen malli on GLM-4.7-Flash (yhteensä 31B, aktiivinen 3B), joka saa 30 pistettä. Vastaavan älykkyyden avoimet painomallit ovat kokonaisparametreiltaan 8–25 kertaa suurempia: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) ja GLM-4.7 (357B, 42). FP8-tarkkuudella mallipainojen tallentamiseen kuluu ~27GB, kun taas 4-bittisessä kvantisoinnissa voi käyttää kannettavan laadukasta laitteistoa, jossa on 16GB+ RAM-levyä ➤ Qwen3.5 27B saa pisteet 1205 GDPval-AA:ssa (Agentic Real-World Work Tasks), asettaen sen suurempien mallien rinnalle. Taustaksi: MiniMax-M2.5 saa 1206, GLM-4.7 (Päättely) 1200 ja DeepSeek V3.2 (Päättely) 1194. Tämä on erityisen merkittävää 27B-parametrimallissa ja viittaa vahvaan agenttiseen kapasiteettiin sen kokoon nähden. GDPval-AA testaa malleja todellisissa tehtävissä 44 ammatissa ja 9 päätoimialalla ➤ AA-Kaikkitietävyys on edelleen suhteellinen heikkous Qwen3.5-perheessä, mikä johtuu pääasiassa alhaisemmasta tarkkuudesta eikä hallusinaatioiden määrästä. Qwen3.5 27B saa -42 pisteitä AA-Omnisciencessa, verrattavissa MiniMax-M2.5:een (-40), mutta jää DeepSeek V3.2:n (-21) ja GLM-4.7:n (-35) jälkeen. Vaikka Qwen3.5 27B:n hallusinaatioprosentti (80 %) on alhaisempi kuin vastaavilla (GLM-4.7 90 %, MiniMax 89 %, DeepSeek 82 %), sen tarkkuus on myös alhaisempi, 21 % verrattuna DeepSeek V3.2:n 34 %:iin ja GLM-4.7:n 29 %:iin. Tämä johtuu todennäköisesti mallin koosta – olemme yleisesti havainneet, että mallit, joissa on enemmän kokonaisparametreja, suoriutuvat paremmin AA-Omnisciencessa, koska laajempi tietopalautus hyötyy suuremmista parametrimääristä ➤ Qwen3.5 27B on yhtä älykäs kuin Qwen3.5 122B A10B. 122B A10B on asiantuntijoiden yhdistelmämalli, joka aktivoi vain 10B 122B:n kokonaisparametreista per eteenpäin suuntautuva syöttö. 27B-malli johtaa GDPval-AA:ssa (1205 Elo vs 1145 Elo) ja hieman TerminalBenchissä (+1,5 p.p.), kun taas 122B-malli johtaa SciCodessa (+2,5 p.p.), HLE:ssä (+1,2 p.p.), ja hallusinaatioprosentti on alhaisempi (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Päättely, 37) on älykkäin malli ~3B aktiivisilla parametreilla, 7 pistettä edellä GLM-4.7-Flashia (30). Muita malleja tässä ~3B aktiivisessa kategoriassa ovat Qwen3 Coder Next (yhteensä 80B 28), Qwen3 Next 80B A3B (27) ja NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B käytti 98M output tokenia Intelligence Indexin ajamiseen, kustannus ~$299 Alibaba Cloud API:n kautta. Tämä on huomattavasti korkea tokenien käyttö verrattuna malleihin, joiden älykkyys on samankaltainen: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) ja jopa suurempi Qwen3.5 397B (86M). Muuta tietoa: ➤ Konteksti-ikkuna: 262K tokenia (laajennettavissa 1M:ään YaRN:n kautta) ➤ Lisenssi: Apache 2.0 ➤ API-hinnoittelu (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 per 1M sisään/ulostulotokenia

Johtavat

Rankkaus

Suosikit