NVIDIA 发布了 Nemotron 3 Super,这是一款 120B(12B 激活)开放权重推理模型,采用混合 Mamba-Transformer MoE 架构,在人工智能指数中得分为 36 分 我们在发布前获得了该模型的访问权限,并在智能性、透明度和推理效率方面进行了评估。 主要要点 † 结合高开放性与强智能:Nemotron 3 Super以其体积来说表现优异,智能远超其他同等开放性型号 † Nemotron 3 Super 在人工智能分析指数中得分 36 分,比上一版 Super 高出 +17 分,比 Nemotron 3 Nano 高出 +12 分。与同尺寸类别的型号相比,这使其领先于GPT-OSS-120B(33),但落后于最近发布的Qwen3.5 122B A10B(42)。 仅关注高效智能:我们发现Nemotron 3 Super的智能比GPT-OSS-120b更高,同时在简单但真实的负载测试中实现了每GPU吞吐量约10%的提升 † 目前支持快速无服务器推理:包括@DeepInfra和@LightningAI在内的供应商在该模型发布时提供最高484个令牌/秒的速度 模型详情 📝 Nemotron 3 Super 拥有 1.206 亿总参数和 1270 亿活跃参数,并支持 100 万令牌上下文窗口和混合推理支持。该报告以开放权重和许可发布,同时提供开放训练数据和方法论披露 📐 该模型具有多项设计特征,支持高效推理,包括采用混合Mamba-Transformer和LatentMoE架构、多词预测以及NVFP4量化权重 🎯 NVIDIA 对 Nemotron 3 Super 进行了(大部分)NVFP4 精度的预训练,但后期训练转至 BF16。我们的评估分数采用BF16权重 🧠 我们对Nemotron 3 Super的最高努力推理模式(“常规”)进行了基准测试,这是模型三种推理模式(推理测试、低努力和常规)中最有能力的
NVIDIA 发布了重要的训练前和训练后数据,以及该模型的新综合训练配方。这些披露在人工分析开放指数上达到了 83,仅次于 Ai2 和 MBZUAI 的高度开放模型,使 Nemotron 3 Super 在同类中处于开放性和智能性最具吸引力的象限。 Nemotron 3 Super 是迄今为止发布的最智能的模型,具有如此高的开放性。
Nemotron 3 Super 在我们的评估中使用了相对较高的令牌数量。它使用了 1.1 亿个输出令牌来运行人工分析智能指数评估——这比 gpt-oss-120b 高出约 40%,但与 Nemotron 3 Nano 相比减少了约 20%。 这比 Anthropic 的 Claude Opus 4.6(最大)使用的 1.6 亿个令牌少得多,且略少于 OpenAI 的 GPT-5.4(超高),后者使用了 1.2 亿个令牌。
在总计120B,活跃参数12B的情况下,Nemotron 3 Super与全球顶尖实验室最近发布的其他开放权重模型相比仍然相对较小——GLM-5(744B总计,40B活跃)、Qwen3.5 397B A17B(397B总计,17B活跃)和Kimi K2.5(1T总计,32B活跃)各自大约是其3到8倍。
NVIDIA专注于Nemotron家族的高效智能化,我们通过对同级模型测试推理性能,以观察架构选择的影响。 我们用简单的方法在多种对等模型上运行自托管吞吐量测试,工作负载代表了常见用例,如具有中等历史的代理工作流、RAG应用或文档处理。 在本次测试中,Nemotron 3 Super(NVFP4)每枚NVIDIA B200 GPU的吞吐量比gpt-oss-120b(MXFP4)高出11%,使Nemotron 3 Super相对于gpt-oss-120b处于“向上且偏右”的位置。Qwen3.5 122B A10B 在智力指数上比 Nemotron 3 Super 高达 +6 分,但每显卡吞吐量低 40%。 我们对Nemotron 3 Super的智力指数评分基于BF16权重进行评估。我们尚未评估NVFP4量子化是否对智能产生影响,但NVIDIA内部测试发现,NVFP4模型相较于BF16基线实现了99.8%的中位准确率。 关于我们的测试设备和模型配置的更多细节,请参阅我们关于Nemotron 3 Super的文章:
Nemotron 3 Super 将从其发布之日起在包括 Lightning AI 和 DeepInfra 在内的无服务器 API 上提供。 我们测试了这些端点,发现我们的标准 10k 令牌输入工作负载的性能高达每秒 484 个令牌。 在发布时,Nemotron 3 Super 在可比同类中位于智能和输出速度最具吸引力的象限。
8.96K