全新 NVIDIA Nemotron 3 Super 将代理式 AI 吞吐量提升 5 倍

一款全新的开放 1,200 亿参数混合式 MoE 模型,专为 NVIDIA Blackwell 进行了优化,可解决拖慢自主智能体工作流的长时推理和上下文爆炸的成本难题。
作者 Kari Briski

NVIDIA Nemotron 3 Super 于今日发布,其为一款 1,200 亿参数开放模型,拥有 120 亿个活跃参数,旨在大规模运行复杂的代理式 AI 系统。

该模型现已上线,融合先进的推理能力,能够高效并精准地完成自主智能体的任务。

AI 原生公司:Perplexity 不仅为用户提供 Nemotron 3 Super 访问权限用于搜索,还将其作为 ‘Computer’ 平台中 20 个编排模型的组成部分。CodeRabbit、Factory 和 Greptile 等提供软件开发智能体的公司将该模型与自有模型结合,并集成到 AI 智能体中,在降低成本的同时提升准确性。Edison Scientific 和 Lila Sciences 等生命科学及前沿 AI 机构则将借助该模型为其智能体赋予深度文献检索、数据科学与分子理解能力。

企业软件平台:Amdocs、Palantir、Cadence、达索系统和西门子等行业领先企业,正部署并定制该模型,用于电信、网络安全、半导体设计与制造等领域的工作流自动化。

企业从聊天机器人向多智能体应用演进时,会面临两大制约因素。

第一个制约因素是上下文爆炸。与标准聊天相比,多智能体工作流生成的 token 数量多达其 15 倍,因为每次交互都需要重新发送完整的历史记录,包括工具输出和中间推理结果。

在长任务中,这样庞大的上下文不仅增加了成本,还可能导致目标偏离,即智能体在执行过程中逐渐脱离最初设定的任务目标。

第二个制约因素则是思考税。复杂智能体每一步都必须进行推理,但如果每个子任务都使用大模型,多智能体应用就会变得成本高昂和迟缓,难以投入实际使用。

Nemotron 3 Super 拥有一个 100 万 token 的上下文窗口,允许智能体在显存中保留完整的工作流状态,并防止目标偏离。

Nemotron 3 Super 树立了新标准,在 Artificial Analysis 的效率和开放性排名中位居榜首,并在同等规模的模型中展现出领先的准确性。

该模型还助力 NVIDIA AI-Q 研究智能体在 DeepResearch BenchDeepResearch Bench II 排行榜上取得第一名。这些基准测试旨在衡量 AI 系统在海量文档中开展全面多步骤研究,并保持推理连贯性的能力。

混合架构

Nemotron 3 Super 采用了混合 MoE (mixture‑of‑experts) 架构,结合了三项主要创新,与之前的 Nemotron Super 模型相比,实现了高达 5 倍的吞吐量提升和高达 2 倍的准确率提升。

  • 混合架构:Mamba 层实现 4 倍显存与计算效率提升,Transformer 层则提供高级推理能力。
  • 混合专家 (MoE):在其 1,200 亿参数中,推理时仅激活 120 亿参数。
  • 潜在混合专家 (MoE) 架构:这是一种新的推理技术,它以单个专家的成本来激活四个专家,从而显著提升 token 生成的准确率。
  • token 预测:能够同时预测多个未来的词语,从而使推理速度提高 3 倍。

在 NVIDIA Blackwell 平台上,该模型以 NVFP4 精度运行,降低了显存需求,并使推理速度较之在 NVIDIA Hopper 平台上使用 FP8 至高提升 4 倍,同时不损失准确性。

开放权重、数据和方案

NVIDIA 将 Nemotron 3 Super 的权重完全开放,并配以宽松许可协议。开发者可在工作站、数据中心或云端来进行部署和定制。

Nemotron 3 Super 基于前沿推理模型生成的合成数据训练而成。NVIDIA 将公布完整的训练方法,其中包括超过 10 万亿个 token 的预训练和后训练数据集,15 个用于强化学习的训练环境以及评估方案。研究人员还可借助 NVIDIA NeMo 平台对模型进行微调或构建专属模型。

在代理式系统中的应用

Nemotron 3 Super 旨在处理多智能体系统中的复杂子任务。

一个软件开发智能体可以一次性将整个代码库加载到上下文中,从而实现端到端的代码生成和调试,且无需进行文档分割。

在金融分析中,它能够将数千页的报告加载到显存中,避免在长对话中重复推理,从而提高效率。

Nemotron 3 Super 具有高精度的工具调用能力,确保自主智能体能够在海量的函数库中导航,避免在高风险环境中出现执行错误 (例如网络安全中的自主安全编排)。

如何获取

NVIDIA Nemotron 3 Super 作为 Nemotron 3 系列的一部分,可通过 NVIDIA 官网PerplexityOpenRouterHugging Face 获取。戴尔科技公司正将该模型引入 Hugging Face 上的 Dell Enterprise Hub,并针对 Dell AI Factory 的本地部署进行了优化,以推动多智能体 AI 工作流的发展。慧与 (HPE) 也将 NVIDIA Nemotron 引入其 Agents Hub,帮助确保在企业中扩展应用代理式 AI 。

企业与开发者可通过多家合作伙伴部署该模型:

该模型以 NVIDIA NIM 形式提供,支持从本地系统到云端的部署。

想要及时了解代理式 AI、NVIDIA Nemotron 等更多信息,请订阅 NVIDIA AI 新闻或探索自主学习的视频教程和直播