Mistral har släppt Mistral Small 4, en modell med öppna vikter med hybrid resonemang och bildinmatning, och får 27 poäng på Artificial Analysis Intelligence Index @MistralAI Small 4 är en 119B blandningsmodell av experter med 6,5B aktiva parametrar per token, som stöder både resonemangs- och icke-resonemangslägen. I resonemangsläge får Mistral Small 4 27 poäng på Artificial Analysis Intelligence Index, en förbättring med 12 poäng från Small 3,2 (15) och är nu bland de mest intelligenta modeller Mistral har släppt, och överträffar Mistral Large 3 (23) och matchar den proprietära Magistral Medium 1,2 (27). Den ligger dock efter öppna viktkamrater med liknande totala parameterantal såsom gpt-oss-120B (hög, 33), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, 36) och Qwen3.5 122B A10B (Reasoning, 42). Viktiga slutsatser: ➤ Resonerande och icke-resonerande lägen i en och samma modell: Mistral Small 4 stödjer konfigurerbart hybridresonemang med resonemangs- och icke-resonemangslägen, istället för de separata resonemangsvarianter som Mistral tidigare släppt med sina Magistral-modeller. I resonemangsläge får modellen 27 poäng på Artificial Analysis Intelligence Index. I icke-resonerande läge får modellen 19 poäng, en förbättring med 4 poäng jämfört med föregångaren Mistral Small 3.2 (15) ➤ Mer token-effektiv än jämnåriga av liknande storlek: Med ~52 miljoner utdata använder Mistral Small 4 (Reasoning) färre tokens för att köra Artificial Analysis Intelligence Index jämfört med resonemangsmodeller som gpt-oss-120B (hög, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, ~110M) och Qwen3.5 122B A10B (Reasoning, ~91M). I icke-resonerande läge använder modellen ~4 miljoner utdatatoken ➤ Inbyggt stöd för bildinmatning: Mistral Small 4 är en multimodal modell som accepterar bildinmatning såväl som text. I vår multimodala utvärdering får MMMU-Pro, Mistral Small 4 (Resonemang) 57 %, före Mistral Large 3 (56 %) men efter Qwen3,5 122B A10B (Resonemang, 75 %). Varken gpt-oss-120B eller NVIDIA Nemotron 3 Super 120B A12B stödjer bildinmatning. Alla modeller stöder endast textutmatning ➤ Förbättring av verkliga agentiska uppgifter: Mistral Small 4 får en Elo på 871 på GDPval-AA, vår utvärdering bygger på OpenAI:s GDPval-dataset som testar modeller på verkliga uppgifter inom 44 yrken och 9 stora branscher, med modeller som producerar leveranser som dokument, kalkylblad och diagram i en agentisk slinga. Detta är mer än dubbelt så mycket som Elo för Small 3.2 (339) och nära Mistral Large 3 (880), men ligger bakom gpt-oss-120B (hög, 962), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, 1021) och Qwen3.5 122B A10B (Reasoning, 1130) ➤ Lägre hallucinationsfrekvens än jämförbara modeller av liknande storlek: Mistral Small 4 får -30 på AA-Omniscience, vår utvärdering av kunskapstillförlitlighet och hallucinationer, där poängen varierar från -100 till 100 (högre är bättre) och ett negativt resultat indikerar fler felaktiga än korrekta svar. Mistral Small får 4 poäng före gpt-oss-120B (hög, -50), Qwen3.5 122B A10B (Reasoning, -40) och NVIDIA Nemotron 3 Super 120B A12B (Reasoning, -42) Viktiga modelldetaljer: ➤ Kontextfönster: 256 000 tokens (upp från 128 000 på Small 3.2) ➤ Prissättning: 0,15 $/0,6 dollar per 1 miljon in-/utgångstokens ➤ Tillgänglighet: Endast Mistral förstaparts-API. Vid native FP8-precision kräver Mistral Small 4:s 119B-parametrar ~119GB för att självvärda vikterna (mer än 80GB HBM3-minne på en enda NVIDIA H100) ➤ Modalitet: Bild- och textinmatning med endast textutmatning ➤ Licensiering: Apache 2.0-licens
När det gäller intelligens kontra totalparametrar erbjuder Mistral Small 4 (Reasoning, 27) en mindre fördelaktig avvägning än konkurrenter i liknande storlekar som gpt-oss-120B (hög, 33), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, 36) och Qwen3.5 122B A10B (Reasoning, 42)
Med ~52 miljoner utmatningstoken använder Mistral Small 4 (Reasoning) färre tokens för att köra Artificial Analysis Intelligence Index jämfört med jämförbara modeller som gpt-oss-120B (hög, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, ~110M) och Qwen3.5 122B A10B (Reasoning, ~91M)
Fullständig genomgång av resultaten:
Fullständiga resultat finns tillgängliga på Mistral Small 4-modellsidan om artificiell analys:
9,76K