NVIDIA vydala Nemotron 3 Super, model uvažování s otevřenými vahami 120B (12B aktivní), který dosahuje 36 bodů v indexu umělé analytické inteligence s hybridní architekturou Mamba-Transformer MoE K tomuto modelu jsme měli přístup před uvedením na trh a hodnotili jsme jej v oblasti inteligence, otevřenosti a efektivity inferencí. Klíčové poznatky ➤ Kombinuje vysokou otevřenost se silnou inteligencí: Nemotron 3 Super si na svou velikost vede velmi dobře a je výrazně inteligentnější než jakýkoli jiný model s podobnou otevřeností ➤ Nemotron 3 Super získal 36 bodů v Indexu umělé analýzy inteligence, což je o +17 bodů více než předchozí vydání Super a +12 bodů oproti Nemotronu 3 Nano. Ve srovnání s modely v podobné velikostní kategorii jej to řadí před GPT-oss-120b (33), ale za nedávno uvedený Qwen3.5 122B A10B (42). ➤ Zaměřeno na efektivní inteligenci: zjistili jsme, že Nemotron 3 Super má vyšší inteligenci než GPT-OSS-120b a zároveň umožňuje ~10 % vyšší propustnost na GPU v jednoduchém, ale realistickém zátěžovém testu ➤ Dnes podporováno pro rychlou serverless inferenci: poskytovatelé včetně @DeepInfra a @LightningAI poskytují tento model při spuštění rychlostí až 484 tokenů za sekundu Detaily modelu 📝 Nemotron 3 Super má celkem 120,6 miliard a 12,7 miliard aktivních parametrů, spolu s kontextovým oknem o kapacitě 1 milion tokenů a podporou hybridního uvažování. Je publikován s otevřenými váhami a permisivní licencí, spolu s otevřenými tréninkovými daty a zveřejňováním metodologie 📐 Model má několik návrhových prvků umožňujících efektivní inferenci, včetně využití hybridních architektur Mamba-Transformer a LatentMoE, predikce více tokenů a kvantovaných vah NVFP4 🎯 NVIDIA předtrénovala Nemotron 3 Super (většinou) v přesnosti NVFP4, ale po tréninku přešla na BF16. Naše hodnotící skóre používá váhy BF16 🧠 Porovnali jsme Nemotron 3 Super v jeho režimu s nejvyšší námahou uvažování ("běžný"), což je nejschopnější ze tří inferenčních režimů modelu (odvozování, nízkonákladový a pravidelný)
NVIDIA zveřejnila významná data před a po tréninku spolu s novými komplexními trénovacími recepty pro tento model. Tato zveřejnění dosahují 83 bodů v indexu otevřenosti umělé analýzy, což je za vysoce otevřenými modely od Ai2 a MBZUAI, a řadí Nemotron 3 Super do nejatraktivnějšího kvadrantu otevřenosti a inteligence mezi konkurenty. Nemotron 3 Super je zdaleka nejinteligentnější model, jaký kdy byl vydán s takovou úrovní otevřenosti.
Nemotron 3 Super použil relativně vysoký počet tokenů v rámci našich hodnocení. Použil 110 milionů výstupních tokenů k provádění hodnocení Indexu umělé analytické inteligence – což je přibližně o 40 % více než gpt-oss-120b s vysokým úsilím na uvažování, ale ~20% snížení oproti Nemotron 3 Nano. To je výrazně méně tokenů než Claude Opus 4.6 od Antropic (max), který použil 160M tokenů, a o něco méně než GPT-5.4 (xhigh) od OpenAI, který použil 120M tokenů.
Při celkových 120B a 12B aktivních parametrech je Nemotron 3 Super stále relativně malý ve srovnání s jinými nedávnými modely s otevřenou váhou od předních světových laboratoří — GLM-5 (celkem 744B, 40B aktivní), Qwen3.5, 397B, A17B (397B celkem, 17B aktivní) a Kimi K2.5 (celkem 1T, 32B aktivní) jsou každý 3x až 8x větší.
NVIDIA se zaměřuje na efektivní inteligenci pro rodinu Nemotron a testovali jsme výkon inference vůči peer modelům, abychom viděli dopad voleb architektury. Provedli jsme self-hosted testy propustnosti napříč různými peer modely pomocí jednoduché metodologie s pracovními zátěžemi reprezentativními pro běžné případy použití, jako jsou agentické workflow s mírnou historií, RAG aplikace nebo zpracování dokumentů. V tomto testu Nemotron 3 Super (NVFP4) ukazuje o 11 % vyšší propustnost na GPU NVIDIA B200 než GPT-oss-120b (MXFP4), což řadí Nemotron 3 Super "nahoru a doprava" vzhledem k GPT-oss-120b. Qwen3.5 122B A10B dosahuje +6 bodů na Intelligence Indexu ve srovnání s Nemotron 3 Super, ale s o 40 % nižší propustností na GPU. Naše skóre Intelligence Index pro Nemotron 3 Super byla hodnocena na váhách BF16. Dosud jsme nezjistili, zda kvantizace NVFP4 má nějaký vliv na inteligenci, ale interní testování NVIDIA zjistilo, že model NVFP4 dosáhl 99,8% mediánové přesnosti vzhledem k výchozímu hodnotě BF16. Pro více informací o našem testovacím nastavení a konfiguracích modelů viz náš článek o Nemotron 3 Super:
Nemotron 3 Super bude od svého vydání dostupný na serverless API od poskytovatelů jako Lightning AI a DeepInfra. Tyto koncové body jsme testovali a vidíme výkon až 484 tokenů za sekundu na našich standardních 10k tokenových vstupních zátěžích. Při uvedení na trh se Nemotron 3 Super nachází v nejatraktivnějším kvadrantu inteligence a rychlosti výstupu mezi srovnatelnými konkurenty.
7,18K