Mistral wydał Mistral Small 4, model o otwartych wagach z hybrydowym rozumowaniem i wejściem obrazowym, uzyskując 27 punktów w Indeksie Sztucznej Analizy Inteligencji. MistralAI's Small 4 to model mieszanki ekspertów o 119 miliardach parametrów, z 6,5 miliardami aktywnych parametrów na token, wspierający zarówno tryby rozumowania, jak i nie-rozumowania. W trybie rozumowania Mistral Small 4 uzyskuje 27 punktów w Indeksie Sztucznej Analizy Inteligencji, co stanowi poprawę o 12 punktów w porównaniu do Small 3.2 (15) i teraz znajduje się wśród najbardziej inteligentnych modeli, jakie Mistral wydał, przewyższając Mistral Large 3 (23) i dorównując własnościowemu Magistral Medium 1.2 (27). Jednakże, ustępuje otwartym wagom o podobnej liczbie parametrów, takim jak gpt-oss-120B (wysoki, 33), NVIDIA Nemotron 3 Super 120B A12B (Rozumowanie, 36) i Qwen3.5 122B A10B (Rozumowanie, 42). Kluczowe wnioski: ➤ Tryby rozumowania i nie-rozumowania w jednym modelu: Mistral Small 4 wspiera konfigurowalne hybrydowe rozumowanie z trybami rozumowania i nie-rozumowania, zamiast oddzielnych wariantów rozumowania, które Mistral wydał wcześniej w swoich modelach Magistral. W trybie rozumowania model uzyskuje 27 punktów w Indeksie Sztucznej Analizy Inteligencji. W trybie nie-rozumowania model uzyskuje 19 punktów, co stanowi poprawę o 4 punkty w porównaniu do swojego poprzednika Mistral Small 3.2 (15). ➤ Bardziej efektywny tokenowo niż rówieśnicy o podobnej wielkości: Przy ~52M tokenach wyjściowych, Mistral Small 4 (Rozumowanie) używa mniej tokenów do uruchomienia Indeksu Sztucznej Analizy Inteligencji w porównaniu do modeli rozumowania, takich jak gpt-oss-120B (wysoki, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Rozumowanie, ~110M) i Qwen3.5 122B A10B (Rozumowanie, ~91M). W trybie nie-rozumowania model używa ~4M tokenów wyjściowych. ➤ Natywne wsparcie dla wejścia obrazowego: Mistral Small 4 to model multimodalny, akceptujący wejście obrazowe oraz tekstowe. W naszej ocenie multimodalnej, MMMU-Pro, Mistral Small 4 (Rozumowanie) uzyskuje 57%, wyprzedzając Mistral Large 3 (56%), ale ustępując Qwen3.5 122B A10B (Rozumowanie, 75%). Żaden z modeli gpt-oss-120B ani NVIDIA Nemotron 3 Super 120B A12B nie wspiera wejścia obrazowego. Wszystkie modele wspierają tylko wyjście tekstowe. ➤ Poprawa w zadaniach agentowych w rzeczywistym świecie: Mistral Small 4 uzyskuje Elo 871 na GDPval-AA, naszej ocenie opartej na zbiorze danych GDPval OpenAI, która testuje modele w rzeczywistych zadaniach w 44 zawodach i 9 głównych branżach, z modelami produkującymi dokumenty, arkusze kalkulacyjne i diagramy w pętli agentowej. To więcej niż podwójne Elo Small 3.2 (339) i bliskie Mistral Large 3 (880), ale za gpt-oss-120B (wysoki, 962), NVIDIA Nemotron 3 Super 120B A12B (Rozumowanie, 1021) i Qwen3.5 122B A10B (Rozumowanie, 1130). ➤ Niższy wskaźnik halucynacji niż modele rówieśnicze o podobnej wielkości: Mistral Small 4 uzyskuje -30 w AA-Omniscience, naszej ocenie niezawodności wiedzy i halucynacji, gdzie wyniki wahają się od -100 do 100 (wyższe jest lepsze), a ujemny wynik wskazuje na więcej błędnych niż poprawnych odpowiedzi. Mistral Small 4 uzyskuje lepszy wynik niż gpt-oss-120B (wysoki, -50), Qwen3.5 122B A10B (Rozumowanie, -40) i NVIDIA Nemotron 3 Super 120B A12B (Rozumowanie, -42). Kluczowe szczegóły modelu: ➤ Okno kontekstowe: 256K tokenów (wzrost z 128K w Small 3.2) ➤ Ceny: 0,15 USD / 0,6 USD za 1M tokenów wejściowych/wyjściowych. ➤ Dostępność: Tylko API pierwszej strony Mistral. Przy natywnej precyzji FP8, 119 miliardów parametrów Mistral Small 4 wymaga ~119 GB do samodzielnego hostowania wag (więcej niż 80 GB pamięci HBM3 na pojedynczym NVIDIA H100). ➤ Modalność: Wejście obrazowe i tekstowe z wyjściem tylko tekstowym. ➤ Licencjonowanie: Licencja Apache 2.0.
W kontekście inteligencji a całkowitej liczby parametrów, Mistral Small 4 (Rozumowanie, 27) oferuje mniej korzystny kompromis niż konkurenci o podobnych rozmiarach, tacy jak gpt-oss-120B (wysoki, 33), NVIDIA Nemotron 3 Super 120B A12B (Rozumowanie, 36) oraz Qwen3.5 122B A10B (Rozumowanie, 42)
Przy ~52M tokenach wyjściowych, Mistral Small 4 (Reasoning) używa mniej tokenów do uruchomienia Indeksu Sztucznej Analizy Inteligencji w porównaniu do modeli konkurencyjnych, takich jak gpt-oss-120B (wysoki, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, ~110M) oraz Qwen3.5 122B A10B (Reasoning, ~91M)
Pełne zestawienie wyników:
Pełne wyniki dostępne na stronie modelu Mistral Small 4 w Artificial Analysis:
9,33K