NVIDIA 和 AWS 扩展全栈合作伙伴关系,提供对未来创新至关重要的安全且高性能的计算平台

AWS 将 NVIDIA NVLink Fusion 集成到其定制芯片中,包括新一代 Tranium4 芯片、Graviton 和 AWS Nitro System。
作者 Ian Buck

在 AWS re:Invent 上,NVIDIA 和亚马逊云科技 (AWS) 扩展了战略合作,在互连技术、云基础设施、开放模型和物理 AI 方面实现了新的技术集成。 

作为此次战略合作拓展的一部分,AWS 将支持 NVIDIA NVLink Fusion AI 基础架构平台,用于其定制设计的芯片,包括用于推理和代理式 AI 模型训练的新一代 Trainium4 芯片、用于各种工作负载的 Graviton CPU 以及 Nitro System 虚拟化基础架构。 

使用 NVIDIA NVLink Fusion,AWS 将NVIDIA NVLink 纵向扩展 (scale-up) 互连、 NVIDIA MGX 机架架构和 AWS 定制芯片相结合 ,可显著提高性能并加快其新一代云规模 AI 功能的上市时间。 

AWS 正在设计 Trainium4 以与 NVLink 和 NVIDIA MGX 集成,这是 NVIDIA 和 AWS 使用 NVLink Fusion 技术开展多代协作的第一代产品。 

AWS 已使用 NVIDIA GPU 大规模部署 MGX 机架。集成 NVLink Fusion 将使 AWS 能够进一步简化其平台的部署和系统管理。 

AWS 还可以利用 NVLink Fusion 供应商生态系统,该生态系统提供从机架、机箱、电源到冷却系统的整机架部署所需的全部组件。 

通过支持 AWS 的 Elastic Fabric Adapter 和 Nitro System,AWS 上的 NVIDIA Vera Rubin 架构将为客户提供灵活的网络选择,同时保持与 AWS 云基础设施的完全兼容性,并加速新 AI 服务的推出。 

“GPU 计算需求飞速增长 — — 更多的计算使 AI 变得更智能,更智能的 AI 推动了更广泛的应用,而更广泛的应用创造了对更多计算的需求。AI 的良性循环已经到来,”NVIDIA 创始人兼首席执行官黄仁勋表示。“随着 NVIDIA NVLink Fusion 应用于 AWS Trainium4,我们正在将纵向扩展架构与 AWS 的定制芯片相结合,以打造新一代加速平台。NVIDIA 和 AWS 正携手为 AI 工业革命构建计算网络架构,为每个国家地区的每家企业带来先进的 AI 技术,并加速全球智能化进程。” 

亚马逊云科技首席执行官 Matt Garman 表示:“亚马逊云科技和 NVIDIA 已经并肩合作超过 15 年,今天标志着这一旅程中的一个新里程碑。我们正与 NVIDIA 一起推进大规模 AI 基础设施的发展,为客户提供更高的性能、效率和可扩展性。AWS Trainium4、Graviton 和 Nitro System 即将支持 NVIDIA NVLink Fusion,这将为客户带来新的能力 ,使他们能够以前所未有的速度开展创新。” 

规模与主权的融合 

AWS 已通过 NVIDIA Blackwell 架构扩展其加速计算产品组合,使客户能够立即使用业界最先进的 GPU 进行训练和推理。

这些 GPU 构成了 AWS 基础设施主干的一部分,为 AWS AI Factories 提供动力支持。AWS AI Factories 是一款新的 AI 云产品,将为全球客户提供所需的专用基础设施,使其能够在自己的数据中心 (由 AWS 运营) 中利用先进的 AI 服务和功能,同时还能让客户保持对自有数据的掌控并遵守当地法规。 

NVIDIA 和 AWS 致力于在全球部署主权 AI 云,并为世界带来出色的 AI 创新。随着 AWS AI Factories 的推出,两家公司正在提供安全的主权 AI 基础设施,为世界各地的机构提供前所未有的计算能力,满足日益严格的主权 AI 需求。 

对于公共部门机构而言,AWS AI Factories 将改变超级计算和 AI 格局。AWS AI Factories 客户将能够将 AWS 业界领先的云基础设施和服务 (以其可靠性、安全性和可扩展性而闻名) 与 NVIDIA Blackwell GPU 和包括 NVIDIA Spectrum-X 以太网交换机在内的全栈 NVIDIA 加速计算平台无缝集成。

统一的架构将确保客户能够访问先进的 AI 服务和功能,以及训练和部署大规模模型,同时保持对专有数据的充分掌控,并完全遵守当地监管框架。 

NVIDIA Nemotron 与 Amazon Bedrock 的集成扩展了软件优化 

除了硬件之外,此次合作还扩展了 NVIDIA 软件堆栈与 AWS AI 生态系统的集成。NVIDIA Nemotron 开放模型现已集成至 Amazon Bedrock,使客户能够以生产规模构建生成式 AI 应用和智能体。开发者可以使用 Nemotron Nano 2 和 Nemotron Nano 2 VL 构建专用的代理式 AI 应用,高效、准确地处理文本、代码、图像和视频。 

该集成使高性能、开放的 NVIDIA 模型可以通过 Amazon Bedrock 的无服务器平台即时获取,客户可依托其经验证的可扩展性并免于基础设施管理。行业领导者 CrowdStrikeBridgeWise 率先使用该服务部署专门的 AI 智能体。 

AWS 上的 NVIDIA 软件可简化开发者体验 

NVIDIA 和 AWS 还在软件层进行协同开发,以加速每个企业的数据主干。Amazon OpenSearch Service 现在为向量索引构建提供无服务器 GPU 加速 NVIDIA cuVS,一个用于 GPU 加速向量搜索和数据聚类的开源库。这一里程碑标志着使用 GPU 进行非结构化数据处理的根本性转变,早期采用者仅以四分之一的成本就将向量索引速度提升至原来的 10 倍。 

这些显著提升可减少搜索延迟、加速写入,并在需要时精确提供适量的 GPU 性能,从而提高检索增强生成等动态 AI 技术的生产力。AWS 是率先使用 NVIDIA GPU 提供无服务器向量索引的主要云提供商。 

生产就绪型 AI 智能体需要性能可视化、优化和可扩展的基础设施。通过结合用于智能体开发和编排的 Strands Agents、用于深度分析和性能调优的 NVIDIA NeMo Agent Toolkit ,以及实现安全、可扩展的智能体基础设施的 Amazon Bedrock AgentCore,组织可以为开发者提供从原型到生产的完整、可预测的路径。 

这种扩展的支持建立在 AWS 与 NVIDIA 技术的现有集成之上,包括 NVIDIA NIM ,以及 NVIDIA RivaNVIDIA BioNeMo 等框架,还有与 Amazon SageMaker 和 Amazon Bedrock 集成的模型开发工具,使组织能够比以往更快地部署代理式 AI、语音 AI 和科学应用。 

借助 AWS 加速物理 AI 

开发物理 AI 的过程需要高质量和多样化的数据集来训练机器人模型,以及在实际部署之前在仿真中进行测试和验证的框架。 

NVIDIA Cosmos 世界基础模型 (WFM) 现已推出 Amazon EKS 上的 NVIDIA NIM 微服务,从而实现实时机器人控制和仿真工作负载具有无缝可靠性和云原生效率。适用于基于批处理的任务和离线工作负载,例如大规模合成数据生成 Cosmos WFM 也可作为容器在 AWS Batch 上使用。 

然后,Cosmos 生成的世界状态可用于使用开源仿真和学习框架 ,例如 NVIDIA Isaac SimIsaac Lab。 

Agility Robotics、Agile Robots、ANYbotics、Diligent Robotics、Dyna Robotics、Field AI、Haply Robotics、Lightwheel、RIVR 和 Skild AI 等领先的机器人公司正在将 NVIDIA Isaac 平台与 AWS 结合使用,用于收集、存储和处理机器人生成的数据以及用于扩展机器人开发的训练和仿真等用例。 

持续协作 

凭借多年的持续合作,NVIDIA 赢得了 AWS 全球生成式 AI 基础设施和数据合作伙伴年度大奖,该奖项旨在表彰具备生成式 AI 能力的优秀技术合作伙伴,这些能力支持向量嵌入、数据存储和管理,或生成多种类型和格式的合成数据。 详细了解 NVIDIA 和 AWS 的合作,并参加 12 月 5 日 (星期五) 在拉斯维加斯举行的 AWS re:Invent