亚马逊云科技与 NVIDIA 宣布开展战略合作,为生成式 AI 提供全新超级计算基础架构、软件和服务

作者 英伟达中国
  • 亚马逊云科技将提供首款搭载 NVIDIA Grace Hopper 超级芯片和亚马逊云科技可扩展性 UltraCluster 的云  AI 超级计算机。
  • 首款采用 NVIDIA GH200 NVL32 的 NVIDIA DGX 云即将登陆亚马逊云科技。
  • 两家公司联合开展“Project Ceiba”合作项目,即全球最快的 GPU 驱动 AI 超级计算机和最新 NVIDIA DGX 云超级计算机,用于 NVIDIA AI 研发和自定义模型开发。
  • 搭载 NVIDIA GH200、H200、L40S 和 L4 GPU 的全新亚马逊 EC2 实例为生成式 AI、高性能计算(HPC)、设计和仿真工作负载提供助力
  • 亚马逊云科技提供的 NVIDIA 软件——NeMo LLM 框架、NeMo Retriever 和 BioNeMo 可推动用于自定义模型、语义检索和药物研发的生成式 AI 开发工作。

亚马逊云科技 re:Invent — 亚马逊公司(NASDAQ:AMZN)旗下的亚马逊云科技(AWS)和 NVIDIA(NASDAQ:NVDA)宣布扩大战略合作,共同提供最先进的基础架构、软件和服务,推进客户的生成式人工智能(AI)创新。

NVIDIA 与亚马逊云科技将集两家公司技术之大成,无论是采用 NVIDIA 最新多节点系统的新一代 GPU、CPU 和 AI 软件,还是 AWS Nitro System 高级虚拟化与安全功能、Elastic Fabric Adapter(EFA)互连接口和可扩展性 UltraCluster ,均为训练基础模型和构建生成式 AI 应用的理想选择。

这一扩展合作建立在双方长期合作关系的基础上。两家公司通过为早期的机器学习(ML)先行者提供推进这些技术发展所需的计算性能,进而推动了生成式 AI 时代的发展。

扩展的合作内容之一是为所有行业的生成式 AI 提供强大助力:

  • 亚马逊云科技将成为首家把采用全新多节点 NVLink™ 技术的 NVIDIA® GH200 Grace Hopper 超级芯片带到云端的云服务提供商。NVIDIA GH200 NVL32 多节点平台将 32 颗采用 NVIDIA NVLink 和 NVSwitch™ 技术的 Grace Hopper 超级芯片连接到一个实例中。该平台将在与亚马逊的强大网络(EFA)相连的亚马逊弹性计算云(Amazon EC2)实例上提供,并且得到先进的虚拟化功能(AWS Nitro System)和超大规模集群(Amazon EC2 UltraClusters)的支持,支持双方客户扩展到数千颗 GH200 超级芯片。
  • NVIDIA 和亚马逊云科技将共同提供由亚马逊云科技托管的 NVIDIA AI 训练即服务——NVIDIA DGX™ 云。这将是首个采用 GH200 NVL32 的 DGX 云,可以为开发者提供最大的单实例共享内存。亚马逊云科技托管的 DGX 云将加快前沿生成式 AI 和大语言模型的训练速度,这些模型的参数可能超过 1 万亿个。
  • NVIDIA 和亚马逊云科技正在合作“Project Ceiba”项目,设计世界上最快的由 GPU 驱动的 AI 超级计算机——一套搭载 GH200 NVL32 和亚马逊 EFA 互连接口的大规模系统,由亚马逊云科技托管,供 NVIDIA 内部研发团队使用。这台独一无二的超级计算机具有 16,384 颗 NVIDIA GH200 超级芯片和 65 EFLOPS 的 AI 处理性能。NVIDIA 将使用其推动下一轮生成式 AI 创新浪潮。
  • 亚马逊云科技还将推出三个全新的亚马逊 EC2 实例:搭载 NVIDIA H200 Tensor Core GPU 的 P5e 实例,适用于大规模和前沿生成式 AI 与 HPC 工作负载;以及分别搭载 NVIDIA L4 GPUNVIDIA L40S GPU 的 G6 和 G6e 实例,适用于 AI 微调、推理、图形和视频工作负载等广泛应用。其中,G6e 实例尤其适用于开发 3D 工作流程、数字孪生以及使用 NVIDIA Omniverse™(一个用于连接和构建生成式 AI 赋能的 3D 应用的平台)的其他应用。

亚马逊云科技首席执行官 Adam Selipsky 表示:“自全球首个 GPU 云实例开始,亚马逊云科技与 NVIDIA 的合作已经超过 13 年。当下,我们为图形、游戏、高性能计算、机器学习,以及如今的生成式 AI 等工作负载提供最广泛的 NVIDIA GPU 解决方案。我们将继续与 NVIDIA 一起创新,将下一代 NVIDIA Grace Hopper 超级芯片与亚马逊云科技的 EFA 强大网络、EC2 UltraClusters 超大规模集群以及 Nitro 高级虚拟化功能相结合,使亚马逊云科技成为运行 GPU 的最佳平台。”

NVIDIA 创始人兼首席执行官黄仁勋表示:“生成式 AI 正在深入改变云工作负载,并将加速计算作为多样化内容生成的基础。NVIDIA 和亚马逊云科技的共同使命是为每一位客户提供经济高效的前沿生成式 AI 技术。在这一使命的驱动下,NVIDIA 和亚马逊云科技正在开展覆盖整个计算堆栈的合作,包括 AI 基础架构、加速库、基础模型以及生成式 AI 服务。”

集 NVIDIA 和亚马逊云科技最新技术于一身的亚马逊 EC2 实例

亚马逊云科技将成为首家提供采用多节点 NVLink 技术的 NVIDIA GH200 Grace Hopper 超级芯片的云服务提供商。每个 GH200 超级芯片都将基于 Arm 的 Grace CPU 与 NVIDIA Hopper™  架构 GPU 整合在一个模块上。仅一个采用 GH200 NVL32 的亚马逊 EC2 实例就可提供高达 20 TB 的共享内存,驱动 TB 级工作负载。

这些实例将充分利用亚马逊云科技的第三代 Elastic Fabric Adapter(EFA)互连接口,为每个超级芯片提供高达 400 Gbps 的低延迟、高带宽网络吞吐量,支持客户能够在 EC2 UltraClusters 中扩展到数千颗 GH200 超级芯片。

采用 GH200 NVL32 的亚马逊云科技实例将支持客户按需访问超级计算机级的性能,这对于大规模 AI/ML 工作负载至关重要。这些工作负载需要分布在多个节点上,以处理复杂的生成式 AI 工作负载,包括 FM、推荐系统和向量数据库等。

搭载 NVIDIA GH200 的 EC2 实例将配备 4.5 TB 的 HBM3e 内存,与前一代搭载 H100 的 EC2 P5d 实例相比增加了 7.2 倍,这使客户能够运行更大规模的模型,并提升训练性能。此外,CPU-GPU 内存互连提供比 PCIe 高 7 倍的带宽,实现了芯片到芯片的通信,进而扩展了应用可用的内存总量。

采用 GH200 NVL32 的亚马逊云科技实例将成为其首个采用液冷技术的 AI 基础架构,这有助于确保密集服务器机架能够以最高性能高效运行。

采用 GH200 NVL32 的 EC2 实例还将受益于下一代 EC2 实例的底层平台——AWS Nitro System。Nitro System 通过将主机 CPU/GPU 的 I/O 功能卸载到专用硬件上,从而提供更加稳定的性能,同时其安全增强措施可在处理过程中保护客户代码和数据的安全。

亚马逊云科技率先托管搭载 Grace Hopper 的 NVIDIA DGX 云

亚马逊云科技将与 NVIDIA 共同托管采用 GH200 NVL32 NVLink 基础架构的 NVIDIA DGX 云。NVIDIA DGX 云是一项 AI 超级计算服务,可帮助企业快速访问多节点超级计算,用以训练最复杂的 LLM 和生成式 AI 模型。同时,还集成了 NVIDIA AI Enterprise 软件并可直接连线 NVIDIA AI 专家。

大规模 Project Ceiba 超级计算机将为 NVIDIA 的 AI 开发工作提供强大助力

亚马逊云科技和 NVIDIA 正在合作的 Project Ceiba 超级计算机将与亚马逊 Virtual Private Cloud(VPC)加密网络和亚马逊 Elastic Block Store 高性能块存储等服务集成,使 NVIDIA 能够访问亚马逊云科技的全套功能。

NVIDIA 将把这台超级计算机应用于研发,以此推进 AI 在 LLM、图形和仿真、数字生物学、机器人、自动驾驶汽车、Earth-2 气候预测等领域的发展。

NVIDIA 和亚马逊云科技大力推进生成式 AI、HPC、设计和仿真的发展

为推动最大规模 LLM 的开发、训练和推理,亚马逊云科技 P5e 实例将采用 NVIDIA 最新的 H200 GPU。该 GPU 具有 141 GB 的 HBM3e GPU 内存,较 H100 GPU 内存扩大了 1.8 倍,提速 1.4 倍,加上 AWS Nitro System 支持的高达 3200 Gbps 的 EFA 网络,将支持客户继续在亚马逊云科技平台上构建、训练和部署其前沿模型。

为了提供节能且高性价比的视频、AI 和图形工作负载解决方案,亚马逊云科技发布了搭载 NVIDIA L40S GPU 的全新亚马逊 EC2 G6e 实例和搭载 L4 GPU 的 G6 实例。这些新服务有助于满足初创公司、企业和研究人员的 AI 和高保真图形需求。

G6e 实例专为处理生成式 AI 和数字孪生应用等复杂工作负载而构建。借助 NVIDIA Omniverse,可以开发出逼真的 3D 仿真并利用来自 AWS IoT TwinMaker、智能聊天机器人、AI 助手、搜索和摘要等服务所提供的实时数据对其进行情景化和增强。Amazon Robotics 和 Amazon Fulfillment Centers 将能够整合使用 NVIDIA Omniverse 与 AWS IoT TwinMaker 构建的数字孪生系统,从而优化仓库设计和流程,训练更加智能的机器人助手,并提高交付质量。

L40S GPU 可提供高达 1.45 PFLOPS 的 FP8 性能,其光线追踪内核可提供高达 209 TFLOPS 的光追性能。G6 实例中的 L4 GPU 将为部署自然语言处理、语言翻译、AI 视频和图像分析、语音识别以及个性化领域的 AI 模型提供成本更低、能效更高的解决方案。L40S GPU 还能加速图形工作负载,如创建和渲染实时电影级图形与游戏流等。这三个实例都将在明年推出。

亚马逊云科技托管的 NVIDIA 软件助力生成式 AI 开发

此外,NVIDIA 还发布了亚马逊云科技托管、用于推动生成式 AI 开发工作的软件。NVIDIA NeMo™ Retriever 微服务提供的新工具可利用加速语义检索,创建高度准确的聊天机器人和摘要工具。NVIDIA BioNeMo™已在 Amazon SageMaker 上提供使用,并将登陆亚马逊云科技托管的 NVIDIA DGX 云。该平台能帮助制药公司利用自己的数据简化并加速模型训练,进而加快药物研发。

亚马逊云科技托管的 NVIDIA 软件正在助力亚马逊为其服务和运营注入创新活力。亚马逊云科技使用 NVIDIA NeMo 框架训练选定的新一代亚马逊 Titan LLM。Amazon Robotics 已开始使用 NVIDIA Omniverse Isaac 构建数字孪生,以便先在虚拟环境中自动化、优化和规划其自主仓库,然后再将其仓库部署到现实世界中。

关于 NVIDIA

自 1993 年成立以来,NVIDIA(NASDAQ: NVDA)一直是加速计算领域的先驱。NVIDIA 1999 年发明的 GPU 驱动了 PC 游戏市场的增长,并重新定义了现代计算机图形,开启了现代 AI 时代,正在推动跨市场的工业数字化。NVIDIA 现在是一家全栈计算公司,其数据中心规模的解决方案正在重塑整个行业。更多信息,请访问 https://nvidianews.nvidia.com/