NVIDIA 推出 Dynamo 生产版本:广泛采用的 AI 工厂推理操作系统

作者 英伟达中国

新闻摘要:

  • NVIDIA Dynamo 1.0 为大规模分布式推理提供了生产级的开源基础架构。
  • Dynamo 和 NVIDIA TensorRT LLM 优化已原生集成到 LangChain、llm-d、LMCache、SGLang 和 vLLM 等开源框架中,以提升推理性能。
  • Dynamo 将 NVIDIA Blackwell GPU 推理性能至高提升 7 倍,并通过免费的开源软件降低了 Token 成本,为数百万 GPU 提供了增加收益的机会。
  • NVIDIA 推理平台已被云服务提供商亚马逊云科技 (AWS)、微软 Azure、谷歌云和 Oracle Cloud Infrastructure (OCI) 以及 NVIDIA 云合作伙伴阿里云、CoreWeave、Together AI 和 Nebius 所集成,并被 AI 原生公司 Cursor 和 Perplexity、推理端点提供商 Baseten、Deep Infra 和 Fireworks 以及字节跳动、美团、PayPal 和 Pinterest 等全球企业采用。

加利福尼亚州圣何塞 —— GTC —— 太平洋时间 2026 年 3 月 16 日 —— NVIDIA 今日宣布,用于大规模生成式和智能体推理的开源软件 NVIDIA Dynamo 1.0 现已在全球范围内被广泛采用。Dynamo 1.0 与 NVIDIA Blackwell 平台相结合,助力云提供商、AI 创新者和全球企业能够以无与伦比的规模、效率和速度提供高性能的 AI 推理服务。

随着代理式 AI 系统在各行各业的应用,数据中心内的推理扩展已成为一项复杂的资源编排挑战,不同规模、不同模态的请求以及性能目标会以不可预测的突发形式出现。

正如计算机的操作系统协调硬件和应用程序一样,Dynamo 1.0 作为 AI 工厂的分布式“操作系统”,在集群中无缝地协调 GPU 和显存、内存等存储资源,以驱动复杂的 AI 工作负载。在最近的行业基准测试中,Dynamo 将 NVIDIA Blackwell GPU 的推理性能至高提升 7 倍,并通过免费的开源软件降低了 Token 成本,为数百万 GPU 带来了增加收益的机会。

NVIDIA 创始人兼首席执行官黄仁勋表示:“推理是智能的引擎,驱动了每一次查询、每一个智能体以及每一个应用。通过 NVIDIA Dynamo,我们创建了首个面向 AI 工厂的‘操作系统’。整个生态系统中的快速采用表明新一波代理式 AI 浪潮已经到来,NVIDIA 正在全球范围内推动其发展。”

Dynamo 1.0 通过引入更智能的“流量控制”以及在 GPU 和低成本存储之间移动数据的能力,将推理工作分配到多个 GPU 上,从而减少了资源浪费并缓解了显存限制。针对代理式 AI 和长提示,它可以将请求路由到已在稍早步骤获得最相关“短期记忆”的 GPU,然后在无需使用时卸载该显存。

NVIDIA 推理平台发展势头强劲

通过将 NVIDIA Dynamo 和 NVIDIA TensorRT™ LLM 库优化集成到 LangChain、llm-d、LMCache、SGLang、vLLM 等各大供应商的热门框架中,NVIDIA 正在加速开源生态系统的发展。核心的 Dynamo 构建模块,例如用于实现更智能 KV 存储管理的 KVBM、用于实现快速 GPU 到 GPU 数据移动的 NVIDIA NIXL 以及用于简化扩展的 NVIDIA Grove,也可作为独立模块使用。NVIDIA 还将 TensorRT LLM CUDA® 内核贡献给 FlashInfer 项目,以便将其原生集成到开源框架中。

NVIDIA 推理平台在整个 AI 生态系统中得到支持,包括:

  • 云服务提供商:亚马逊云科技 (AWS) 、微软 Azure谷歌云OCI
  • NVIDIA 云合作伙伴:阿里云、CoreWeave、Crusoe、DigitalOcean、Gcore、GMI Cloud、Lightning AI、Nebius、Nscale、Together AI、Vultr
  • AI 原生公司:Cursor、Hebbia、Perplexity
  • 推理端点提供商:Baseten、Deep Infra、Fireworks
  • 全球企业:阿斯利康、贝莱德、字节跳动、Coupang、Instacart、美团、PayPal、Pinterest、Shopee、软银集团

CoreWeave 产品和工程执行副总裁 Chen Goldberg 表示:“随着 AI 从实验性试点转向持续的大规模生产,底层基础设施必须像其支持的模型一样具备动态性。采用 NVIDIA Dynamo 使我们能够为部署复杂的 AI 智能体提供更无缝、更具弹性的环境。这一底座具有稳定性和高性能编排能力,助力业界具有挑战性的智能体工作负载实现全球部署。”

Nebius 首席技术官 Danila Shtan 表示:“大规模交付可靠的 AI 推理不仅需要强大的 GPU,还需要将性能转化为实际客户价值的软件。从 Dynamo 到 TensorRT LLM,我们高度重视 NVIDIA 的软件堆栈,其带来了深度优化、可预测的性能以及更快的部署速度,帮助我们为客户提供更简单、更高性能的 AI 生产路径。”

Pinterest 首席技术官 Matt Madrigal 表示:“为数亿用户提供直观的多模态 AI 体验,需要全球规模的实时智能。作为开源领域的重要实践者,我们致力于构建可扩展的 AI 技术。通过 NVIDIA Dynamo 对部署进行优化,我们得以基于高性能 AI 基础设施持续拓展,为用户提供无缝、个性化体验。”

Together AI 联合创始人兼首席执行官 Vipul Ved Prakash 表示:“AI 原生企业需要能够可靠、高效地随其应用规模而扩展的推理能力。NVIDIA Dynamo 1.0 与 Together AI 的前沿推理研究相结合,助力我们构建高性能堆栈,为大规模生产工作负载提供加速且经济高效的推理。”

Dynamo 1.0 现已面向全球开发者推出。如需了解详情并开始使用,请点击博客并访问 Dynamo 页面。