一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

NVIDIA 发布了 Nemotron 3 Super，这是一款 120B（12B 激活）开放权重推理模型，采用混合 Mamba-Transformer MoE 架构，在人工智能指数中得分为 36 分我们在发布前获得了该模型的访问权限，并在智能性、透明度和推理效率方面进行了评估。主要要点 † 结合高开放性与强智能：Nemotron 3 Super以其体积来说表现优异，智能远超其他同等开放性型号 † Nemotron 3 Super 在人工智能分析指数中得分 36 分，比上一版 Super 高出 +17 分，比 Nemotron 3 Nano 高出 +12 分。与同尺寸类别的型号相比，这使其领先于GPT-OSS-120B（33），但落后于最近发布的Qwen3.5 122B A10B（42）。仅关注高效智能：我们发现Nemotron 3 Super的智能比GPT-OSS-120b更高，同时在简单但真实的负载测试中实现了每GPU吞吐量约10%的提升 † 目前支持快速无服务器推理：包括@DeepInfra和@LightningAI在内的供应商在该模型发布时提供最高484个令牌/秒的速度模型详情 📝 Nemotron 3 Super 拥有 1.206 亿总参数和 1270 亿活跃参数，并支持 100 万令牌上下文窗口和混合推理支持。该报告以开放权重和许可发布，同时提供开放训练数据和方法论披露 📐 该模型具有多项设计特征，支持高效推理，包括采用混合Mamba-Transformer和LatentMoE架构、多词预测以及NVFP4量化权重 🎯 NVIDIA 对 Nemotron 3 Super 进行了（大部分）NVFP4 精度的预训练，但后期训练转至 BF16。我们的评估分数采用BF16权重 🧠 我们对Nemotron 3 Super的最高努力推理模式（“常规”）进行了基准测试，这是模型三种推理模式（推理测试、低努力和常规）中最有能力的

NVIDIA 发布了重要的训练前和训练后数据，以及该模型的新综合训练配方。这些披露在人工分析开放指数上达到了 83，仅次于 Ai2 和 MBZUAI 的高度开放模型，使 Nemotron 3 Super 在同类中处于开放性和智能性最具吸引力的象限。 Nemotron 3 Super 是迄今为止发布的最智能的模型，具有如此高的开放性。

Nemotron 3 Super 在我们的评估中使用了相对较高的令牌数量。它使用了 1.1 亿个输出令牌来运行人工分析智能指数评估——这比 gpt-oss-120b 高出约 40%，但与 Nemotron 3 Nano 相比减少了约 20%。这比 Anthropic 的 Claude Opus 4.6（最大）使用的 1.6 亿个令牌少得多，且略少于 OpenAI 的 GPT-5.4（超高），后者使用了 1.2 亿个令牌。

在总计120B，活跃参数12B的情况下，Nemotron 3 Super与全球顶尖实验室最近发布的其他开放权重模型相比仍然相对较小——GLM-5（744B总计，40B活跃）、Qwen3.5 397B A17B（397B总计，17B活跃）和Kimi K2.5（1T总计，32B活跃）各自大约是其3到8倍。

NVIDIA专注于Nemotron家族的高效智能化，我们通过对同级模型测试推理性能，以观察架构选择的影响。我们用简单的方法在多种对等模型上运行自托管吞吐量测试，工作负载代表了常见用例，如具有中等历史的代理工作流、RAG应用或文档处理。在本次测试中，Nemotron 3 Super（NVFP4）每枚NVIDIA B200 GPU的吞吐量比gpt-oss-120b（MXFP4）高出11%，使Nemotron 3 Super相对于gpt-oss-120b处于“向上且偏右”的位置。Qwen3.5 122B A10B 在智力指数上比 Nemotron 3 Super 高达 +6 分，但每显卡吞吐量低 40%。我们对Nemotron 3 Super的智力指数评分基于BF16权重进行评估。我们尚未评估NVFP4量子化是否对智能产生影响，但NVIDIA内部测试发现，NVFP4模型相较于BF16基线实现了99.8%的中位准确率。关于我们的测试设备和模型配置的更多细节，请参阅我们关于Nemotron 3 Super的文章：

Nemotron 3 Super 将从其发布之日起在包括 Lightning AI 和 DeepInfra 在内的无服务器 API 上提供。我们测试了这些端点，发现我们的标准 10k 令牌输入工作负载的性能高达每秒 484 个令牌。在发布时，Nemotron 3 Super 在可比同类中位于智能和输出速度最具吸引力的象限。

8.96K