NVIDIA wydało model Nemotron 3 Super, model rozumowania o otwartych wagach z 120B (12B aktywnych), który uzyskał wynik 36 w Indeksie Sztucznej Analizy Inteligencji z hybrydową architekturą Mamba-Transformer MoE. Mieliśmy dostęp do tego modelu przed premierą i oceniliśmy go pod kątem inteligencji, otwartości i efektywności wnioskowania. Kluczowe wnioski ➤ Łączy wysoką otwartość z silną inteligencją: Nemotron 3 Super osiąga dobre wyniki jak na swój rozmiar i jest znacznie bardziej inteligentny niż jakikolwiek inny model o porównywalnej otwartości. ➤ Nemotron 3 Super uzyskał wynik 36 w Indeksie Sztucznej Analizy Inteligencji, o 17 punktów wyżej niż poprzednia wersja Super i o 12 punktów wyżej niż Nemotron 3 Nano. W porównaniu do modeli w podobnej kategorii rozmiarowej, plasuje się przed gpt-oss-120b (33), ale za niedawno wydanym Qwen3.5 122B A10B (42). ➤ Skoncentrowany na efektywnej inteligencji: stwierdziliśmy, że Nemotron 3 Super ma wyższą inteligencję niż gpt-oss-120b, jednocześnie umożliwiając ~10% wyższą przepustowość na GPU w prostym, ale realistycznym teście obciążeniowym. ➤ Wsparcie dla szybkiego wnioskowania bezserwerowego: dostawcy, w tym @DeepInfra i @LightningAI, oferują ten model od momentu premiery z prędkościami do 484 tokenów na sekundę. Szczegóły modelu 📝 Nemotron 3 Super ma 120,6B całkowitych i 12,7B aktywnych parametrów, a także okno kontekstowe o długości 1 miliona tokenów i wsparcie dla hybrydowego rozumowania. Jest publikowany z otwartymi wagami i liberalną licencją, obok otwartych danych treningowych i ujawnienia metodologii. 📐 Model ma kilka cech projektowych umożliwiających efektywne wnioskowanie, w tym wykorzystanie hybrydowych architektur Mamba-Transformer i LatentMoE, prognozowanie wielotokenowe oraz zquantyzowane wagi NVFP4. 🎯 NVIDIA wstępnie wytrenowało Nemotron 3 Super w (głównie) precyzji NVFP4, ale przeszło na BF16 po treningu. Nasze oceny wykorzystują wagi BF16. 🧠 Przeprowadziliśmy benchmark Nemotron 3 Super w jego trybie rozumowania o najwyższym wysiłku ("regular"), najbardziej zdolnym z trzech trybów wnioskowania modelu (rozumowanie wyłączone, niski wysiłek i regularny).
NVIDIA wydało znaczące dane przed- i po-treningowe wraz z nowymi kompleksowymi przepisami treningowymi dla tego modelu. Te ujawnienia osiągają 83 w Indeksie Otwartości Analizy Sztucznej, ustępując jedynie bardzo otwartym modelom od Ai2 i MBZUAI, a model Nemotron 3 Super znajduje się w najbardziej atrakcyjnym kwadrancie pod względem Otwartości i Inteligencji wśród rówieśników. Nemotron 3 Super jest zdecydowanie najinteligentniejszym modelem, jaki kiedykolwiek został wydany z tym poziomem otwartości.
Nemotron 3 Super użył stosunkowo dużej liczby tokenów w naszych ocenach. Użył 110M tokenów wyjściowych do przeprowadzenia ocen Indeksu Sztucznej Analizy Inteligencji - to około 40% więcej niż gpt-oss-120b przy dużym wysiłku rozumowania, ale o ~20% mniej w porównaniu do Nemotron 3 Nano. To znacznie mniej tokenów niż Claude Opus 4.6 (max) od Anthropic, który użył 160M tokenów, i nieco mniej niż GPT-5.4 (xhigh) od OpenAI, który użył 120M tokenów.
Przy 120B całkowitych i 12B aktywnych parametrów, Nemotron 3 Super jest nadal stosunkowo mały w porównaniu do innych niedawnych modeli o otwartych wagach wydanych przez czołowe globalne laboratoria — GLM-5 (744B całkowitych, 40B aktywnych), Qwen3.5 397B A17B (397B całkowitych, 17B aktywnych) oraz Kimi K2.5 (1T całkowitych, 32B aktywnych), które są od 3x do 8x większe.
NVIDIA koncentruje się na efektywnej inteligencji dla rodziny Nemotron, a my przetestowaliśmy wydajność wnioskowania w porównaniu do modeli konkurencyjnych, aby zobaczyć wpływ wyborów architektonicznych. Przeprowadziliśmy testy przepustowości na własnych serwerach w różnych modelach konkurencyjnych, stosując prostą metodologię z obciążeniami reprezentującymi typowe przypadki użycia, takie jak agentowe przepływy pracy z umiarkowaną historią, aplikacje RAG lub przetwarzanie dokumentów. W tym teście Nemotron 3 Super (NVFP4) wykazuje o 11% wyższą przepustowość na GPU NVIDIA B200 niż gpt-oss-120b (MXFP4), co umieszcza Nemotron 3 Super „wyżej i bardziej na prawo” w porównaniu do gpt-oss-120b. Qwen3.5 122B A10B osiąga +6 punktów w Indeksie Inteligencji w porównaniu do Nemotron 3 Super, ale przy 40% niższej przepustowości na GPU. Nasze wyniki Indeksu Inteligencji dla Nemotron 3 Super zostały ocenione na podstawie wag BF16. Nie oceniliśmy jeszcze, czy istnieje jakikolwiek wpływ na inteligencję wynikający z kwantyzacji NVFP4, ale wewnętrzne testy NVIDIA wykazały, że model NVFP4 osiągnął 99,8% mediany dokładności w porównaniu do podstawy BF16. Aby uzyskać więcej szczegółów na temat naszego ustawienia testowego i konfiguracji modeli, zapraszamy do przeczytania naszego artykułu o Nemotron 3 Super:
Nemotron 3 Super będzie dostępny od momentu wydania na bezserwerowych API od dostawców, w tym Lightning AI i DeepInfra. Testowaliśmy te punkty końcowe i widzimy wydajność do 484 tokenów na sekundę przy naszych standardowych obciążeniach wejściowych wynoszących 10k tokenów. W dniu premiery, Nemotron 3 Super znajduje się w najbardziej atrakcyjnym kwadrancie pod względem inteligencji i prędkości wyjściowej wśród porównywalnych konkurentów.
6,59K