亚马逊云科技与 NVIDIA 扩大合作,共同推动生成式 AI 创新

by 英伟达中国
  • 亚马逊云科技(AWS)将提供基于 NVIDIA Grace Blackwell GPU 的 Amazon EC2 实例和 NVIDIA DGX Cloud,提升在万亿级参数大语言模型(LLM)上构建和运行推理的性能
  • AWS Nitro System、Elastic Fabric Adapter 加密和 AWS Key Management Service 与 Blackwell 加密相集成,为客户提供了对训练数据和模型权重的端到端控制,为客户在亚马逊云科技上的 AI 应用提供了更高的安全性 
  • 亚马逊云科技和 NVIDIA 为双方合作开发的 Project Ceiba 超级计算机配备了 20,736 个 GB200 超级芯片,处理性能高达 414 exaflops。这项合作旨在为 NVIDIA 自己的 AI 研发通过在亚马逊云科技的 DGX Cloud 上独家构建飞速的 AI 超级计算机
  • Project Ceiba 是一个利用 DGX Cloud 在亚马逊云科技专门构建的 AI 超级计算机,将配备 20,736 个 GB200 超级芯片,性能高达 414 exaflops,用于 NVIDIA 内部 AI 研发
  • Amazon SageMaker 与 NVIDIA NIM 推理微服务集成,帮助客户进一步提升在 GPU 上运行的基础模型的性价比
  • 亚马逊云科技和 NVIDIA 之间的合作加速了医疗和生命科学领域的 AI 创新

GTC —— 亚马逊公司旗下的亚马逊云科技(AWS)和 NVIDIA 宣布,NVIDIA 在 GTC 2024 上推出的全新 NVIDIA Blackwell GPU 平台即将登陆亚马逊云科技。亚马逊云科技将提供 NVIDIA GB200 Grace Blackwell 超级芯片和 B100 Tensor Core GPU,从而扩展两家公司长期以来的战略合作,提供安全且先进的基础设施、软件和服务,帮助客户解锁新的生成式 AI 功能。

NVIDIA 和亚马逊云科技将继续整合双方的优势技术,其中包括 NVIDIA 最新的多节点系统,该系统采用了下一代 NVIDIA Blackwell 平台和 AI 软件;AWS Nitro System 和 AWS Key Management Service(AWS KMS)高级安全性;Elastic Fabric Adapter(EFA)千兆级网络,以及 Amazon Elastic Compute Cloud(Amazon EC2)UltraCluster 的超大规模集群。这些共同构成了基础设施和工具,与 Amazon EC2 上的前一代 NVIDIA GPU 相比,使客户能够以更低的成本、更快的速度、大规模地在数万亿参数的 LLM 上构建和运行实时推理。

亚马逊云科技首席执行官 Adam Selipsky 表示:“我们两家公司之间的深度合作可以追溯到 13 年前。当时,我们一起在亚马逊云科技上推出了世界上第一个 GPU 云实例。如今,我们为客户提供广泛的 NVIDIA GPU 解决方案。NVIDIA 的下一代 Grace Blackwell 处理器标志着生成式 AI 和 GPU 计算向前迈出了一大步。当与亚马逊云科技强大的 Elastic Fabric Adapter 网络、Amazon EC2 UltraClusters 的超大规模集群以及我们独特的 Nitro System 的高级虚拟化和安全功能相结合时,我们将使客户能够比在其他任何地方都更快、规模更大、更安全地构建和运行具有数万亿参数的大语言模型。我们将继续携手创新,使亚马逊云科技成为在云端运行 NVIDIA GPU 的最佳选择。”

NVIDIA 创始人兼首席执行官黄仁勋表示:“AI 正以前所未有的速度推动突破,在各行各业带来新的应用、商业模式和创新。我们与亚马逊云科技的合作正在加速实现全新的生成式 AI 功能,并为客户提供空前的算力,以突破可能的极限。”

亚马逊云科技和 NVIDIA 的最新创新加速了拥有超过 1 万亿参数的尖端大语言模型训练

亚马逊云科技将提供 NVIDIA Blackwell 平台,该平台由 GB200 NVL72 组合在一起,其中包含通过第五代 NVIDIA NVLink™ 相互连接的 72 个 Blackwell GPU 和 36 个 Grace CPU。当与亚马逊的强大网络(EFA)连接,并在高级虚拟化(AWS Nitro System)和超大规模集群(Amazon EC2 UltraClusters)的支持下,客户可以扩展到数千个 GB200 超级芯片。在加快资源密集型万亿参数语言模型的推理工作负载方面,亚马逊云科技上的 NVIDIA Blackwell 实现了巨大飞跃。

通过适用于机器学习的 Amazon EC2 容量块,客户可以在短期内使用 NVIDIA H100 驱动的 EC2 P5 实例。在此成功的基础上,亚马逊云科技计划在 EC2 UltraClusters 中提供基于最新 B100 GPU 的 EC2 实例,用于加速大规模生成式 AI 的训练和推理。GB200 还将在 NVIDIA DGX Cloud™ 上提供,这是一个在亚马逊云科技上共同设计的 AI 平台,可为企业开发人员提供构建和部署高级生成式 AI 模型所需的专用基础设施和软件。亚马逊云科技上由 Blackwell 驱动的 DGX Cloud 实例将加速尖端生成式 AI 和 LLM 的开发,其参数可超过 1 万亿个。

利用 AWS Nitro System、AWS KMS、加密 EFA 和 Blackwell 加密提高 AI 安全性

随着客户在其组织内部快速推进 AI 落地,他们需要知道在整个训练过程中,自己的数据是否得到了安全的处理。对于保护客户的知识产权、防止篡改模型和保持模型完整性,模型权重(模型在训练过程中学习的参数,对其预测能力非常关键)的安全性至关重要。

亚马逊云科技的 AI 基础设施和服务已经具备安全功能,可以让客户控制他们的数据,并确保数据不会与第三方模型提供商共享。AWS Nitro System和 NVIDIA GB200 相结合,可以防止未经授权的个人访问模型权重,从而进一步提高了 AI 的安全性。GB200 允许对 GPU 之间的 NVLink 连接进行物理加密,并对从 Grace CPU 到 Blackwell GPU 的数据传输进行加密,而 EFA 则对跨服务器的数据进行加密,以进行分布式训练和推理。GB200 还将受益于 AWS Nitro System,该系统将 I/O 功能从主机 CPU/GPU 转移到专门的亚马逊云科技硬件,以提供更稳定的性能。同时,无论是在客户端还是在亚马逊云科技端,其增强的安全性可在处理过程中保护客户的代码和数据。该功能仅在亚马逊云科技上可用,已由领先的网络安全公司 NCC Group 独立验证

通过 Amazon EC2 上的 GB200,亚马逊云科技将使客户能够使用 AWS Nitro EnclavesAWS KMS,在其 EC2 实例周边创建一个可信的执行环境。Nitro Enclaves 允许客户使用自己控制的关键材料,并通过 KMS 加密训练数据和权重。这个可信执行环境可以从 GB200 实例中加载,并且可以直接与 GB200 超级芯片通信。这使 KMS 能够直接与可信执行环境通信,并以加密安全的方式将关键材料传递给可信执行环境。然后,可信执行环境可以将这些材料传递给 GB200,保护其不受客户实例的影响,并防止亚马逊云科技操作员获得密钥或解密训练数据或模型权重,由此赋予客户无与伦比的数据控制力。

Project Ceiba 借助 Blackwell 推动 NVIDIA 在亚马逊云科技上的未来 AI 创新

在亚马逊云科技 re:Invent 2023 上宣布的 Project Ceiba 是 NVIDIA 和亚马逊云科技的合作项目,旨在打造世界上最快的 AI 超级计算机之一。该超级计算机仅在亚马逊云科技上托管,专用于 NVIDIA 的内部研发工作。这是第一台拥有 20,736 颗 B200 GPU 的同类型超级计算机,使用新的 NVIDIA GB200 NVL72(一个采用第五代 NVLink 的系统)构建,可扩展至连接 10,368 颗 NVIDIA Grace CPU 的 20,736 颗 B200 GPU。该系统使用第四代 EFA 网络进行扩展,每个超级芯片提供高达 800 Gbps 的低延迟、高带宽网络吞吐量,能够处理 414 exaflops 的大规模 AI,性能比之前计划在 Hopper 架构上构建的 Ceiba 提高了 6 倍。NVIDIA 的研发团队将使用 Ceiba 推进大语言模型、图形(图像/视频/ 3D 生成)和模拟、数字生物学、机器人、自动驾驶汽车、NVIDIA Earth-2 气候预测等领域的 AI 发展,帮助 NVIDIA 推动未来生成式 AI 的创新。

亚马逊云科技与 NVIDIA 的合作加速了生成式 AI 应用软件的开发,并推进医疗和生命科学领域的用例

亚马逊云科技和 NVIDIA 联手,通过 Amazon SageMaker 与 NVIDIA NIM™ 推理微服务的集成,为生成式 AI 提供高性能、低成本的推理。客户可以使用这个组合,将为了便于在 NVIDIA GPU 上运行而经过预编译和优化的 FM 快速部署到 SageMaker,从而缩短生成式 AI 应用的上市时间。

亚马逊云科技和 NVIDIA 携手合作,通过新的 NVIDIA BioNeMo™ FM 扩展计算机辅助药物发现,用于生成化学、蛋白质结构来预测和了解药物分子如何与靶标相互作用。这些新模型不久将在 AWS HealthOmics 上提供,这是一项专门为帮助医疗和生命科学组织存储、查询和分析基因组、转录组和其他全局数据而构建的服务。

AWS HealthOmics 和 NVIDIA 医疗团队还合作推出了生成式 AI 微服务,以推进药物发现、医疗技术和数字健康的发展——为生物、化学、成像和医疗数据提供一个新的 GPU 加速云端点目录,使医疗企业能够在亚马逊云科技上充分利用生成式 AI 领域的最新技术。