亚马逊云科技与 NVIDIA 扩大合作，共同推动生成式 AI 创新

亚马逊云科技（AWS）将提供基于 NVIDIA Grace Blackwell GPU 的 Amazon EC2 实例和 NVIDIA DGX Cloud，提升在万亿级参数大语言模型（LLM）上构建和运行推理的性能

AWS Nitro System、Elastic Fabric Adapter 加密和 AWS Key Management Service 与 Blackwell 加密相集成，为客户提供了对训练数据和模型权重的端到端控制，为客户在亚马逊云科技上的 AI 应用提供了更高的安全性

亚马逊云科技和 NVIDIA 为双方合作开发的 Project Ceiba 超级计算机配备了 20,736 个 GB200 超级芯片，处理性能高达 414 exaflops。这项合作旨在为 NVIDIA 自己的 AI 研发通过在亚马逊云科技的 DGX Cloud 上独家构建飞速的 AI 超级计算机

Project Ceiba 是一个利用 DGX Cloud 在亚马逊云科技专门构建的 AI 超级计算机，将配备 20,736 个 GB200 超级芯片，性能高达 414 exaflops，用于 NVIDIA 内部 AI 研发

Amazon SageMaker 与 NVIDIA NIM 推理微服务集成，帮助客户进一步提升在 GPU 上运行的基础模型的性价比

亚马逊云科技和 NVIDIA 之间的合作加速了医疗和生命科学领域的 AI 创新

GTC —— 亚马逊公司旗下的亚马逊云科技（AWS）和 NVIDIA 宣布，NVIDIA 在 GTC 2024 上推出的全新 NVIDIA Blackwell GPU 平台即将登陆亚马逊云科技。亚马逊云科技将提供 NVIDIA GB200 Grace Blackwell 超级芯片和 B100 Tensor Core GPU，从而扩展两家公司长期以来的战略合作，提供安全且先进的基础设施、软件和服务，帮助客户解锁新的生成式 AI 功能。

NVIDIA 和亚马逊云科技将继续整合双方的优势技术，其中包括 NVIDIA 最新的多节点系统，该系统采用了下一代 NVIDIA Blackwell 平台和 AI 软件；AWS Nitro System 和 AWS Key Management Service（AWS KMS）高级安全性；Elastic Fabric Adapter（EFA）千兆级网络，以及 Amazon Elastic Compute Cloud（Amazon EC2）UltraCluster 的超大规模集群。这些共同构成了基础设施和工具，与 Amazon EC2 上的前一代 NVIDIA GPU 相比，使客户能够以更低的成本、更快的速度、大规模地在数万亿参数的 LLM 上构建和运行实时推理。

亚马逊云科技首席执行官 Adam Selipsky 表示：“我们两家公司之间的深度合作可以追溯到 13 年前。当时，我们一起在亚马逊云科技上推出了世界上第一个 GPU 云实例。如今，我们为客户提供广泛的 NVIDIA GPU 解决方案。NVIDIA 的下一代 Grace Blackwell 处理器标志着生成式 AI 和 GPU 计算向前迈出了一大步。当与亚马逊云科技强大的 Elastic Fabric Adapter 网络、Amazon EC2 UltraClusters 的超大规模集群以及我们独特的 Nitro System 的高级虚拟化和安全功能相结合时，我们将使客户能够比在其他任何地方都更快、规模更大、更安全地构建和运行具有数万亿参数的大语言模型。我们将继续携手创新，使亚马逊云科技成为在云端运行 NVIDIA GPU 的最佳选择。”

NVIDIA 创始人兼首席执行官黄仁勋表示：“AI 正以前所未有的速度推动突破，在各行各业带来新的应用、商业模式和创新。我们与亚马逊云科技的合作正在加速实现全新的生成式 AI 功能，并为客户提供空前的算力，以突破可能的极限。”

亚马逊云科技和 NVIDIA 的最新创新加速了拥有超过 1 万亿参数的尖端大语言模型训练

亚马逊云科技将提供 NVIDIA Blackwell 平台，该平台由 GB200 NVL72 组合在一起，其中包含通过第五代 NVIDIA NVLink™ 相互连接的 72 个 Blackwell GPU 和 36 个 Grace CPU。当与亚马逊的强大网络（EFA）连接，并在高级虚拟化（AWS Nitro System）和超大规模集群（Amazon EC2 UltraClusters）的支持下，客户可以扩展到数千个 GB200 超级芯片。在加快资源密集型万亿参数语言模型的推理工作负载方面，亚马逊云科技上的 NVIDIA Blackwell 实现了巨大飞跃。

通过适用于机器学习的 Amazon EC2 容量块，客户可以在短期内使用 NVIDIA H100 驱动的 EC2 P5 实例。在此成功的基础上，亚马逊云科技计划在 EC2 UltraClusters 中提供基于最新 B100 GPU 的 EC2 实例，用于加速大规模生成式 AI 的训练和推理。GB200 还将在 NVIDIA DGX Cloud™ 上提供，这是一个在亚马逊云科技上共同设计的 AI 平台，可为企业开发人员提供构建和部署高级生成式 AI 模型所需的专用基础设施和软件。亚马逊云科技上由 Blackwell 驱动的 DGX Cloud 实例将加速尖端生成式 AI 和 LLM 的开发，其参数可超过 1 万亿个。

利用 AWS Nitro System、AWS KMS、加密 EFA 和 Blackwell 加密提高 AI 安全性

随着客户在其组织内部快速推进 AI 落地，他们需要知道在整个训练过程中，自己的数据是否得到了安全的处理。对于保护客户的知识产权、防止篡改模型和保持模型完整性，模型权重（模型在训练过程中学习的参数，对其预测能力非常关键）的安全性至关重要。

亚马逊云科技的 AI 基础设施和服务已经具备安全功能，可以让客户控制他们的数据，并确保数据不会与第三方模型提供商共享。AWS Nitro System和 NVIDIA GB200 相结合，可以防止未经授权的个人访问模型权重，从而进一步提高了 AI 的安全性。GB200 允许对 GPU 之间的 NVLink 连接进行物理加密，并对从 Grace CPU 到 Blackwell GPU 的数据传输进行加密，而 EFA 则对跨服务器的数据进行加密，以进行分布式训练和推理。GB200 还将受益于 AWS Nitro System，该系统将 I/O 功能从主机 CPU/GPU 转移到专门的亚马逊云科技硬件，以提供更稳定的性能。同时，无论是在客户端还是在亚马逊云科技端，其增强的安全性可在处理过程中保护客户的代码和数据。该功能仅在亚马逊云科技上可用，已由领先的网络安全公司 NCC Group 独立验证。

通过 Amazon EC2 上的 GB200，亚马逊云科技将使客户能够使用 AWS Nitro Enclaves 和 AWS KMS，在其 EC2 实例周边创建一个可信的执行环境。Nitro Enclaves 允许客户使用自己控制的关键材料，并通过 KMS 加密训练数据和权重。这个可信执行环境可以从 GB200 实例中加载，并且可以直接与 GB200 超级芯片通信。这使 KMS 能够直接与可信执行环境通信，并以加密安全的方式将关键材料传递给可信执行环境。然后，可信执行环境可以将这些材料传递给 GB200，保护其不受客户实例的影响，并防止亚马逊云科技操作员获得密钥或解密训练数据或模型权重，由此赋予客户无与伦比的数据控制力。

Project Ceiba 借助 Blackwell 推动 NVIDIA 在亚马逊云科技上的未来 AI 创新

在亚马逊云科技 re:Invent 2023 上宣布的 Project Ceiba 是 NVIDIA 和亚马逊云科技的合作项目，旨在打造世界上最快的 AI 超级计算机之一。该超级计算机仅在亚马逊云科技上托管，专用于 NVIDIA 的内部研发工作。这是第一台拥有 20,736 颗 B200 GPU 的同类型超级计算机，使用新的 NVIDIA GB200 NVL72（一个采用第五代 NVLink 的系统）构建，可扩展至连接 10,368 颗 NVIDIA Grace CPU 的 20,736 颗 B200 GPU。该系统使用第四代 EFA 网络进行扩展，每个超级芯片提供高达 800 Gbps 的低延迟、高带宽网络吞吐量，能够处理 414 exaflops 的大规模 AI，性能比之前计划在 Hopper 架构上构建的 Ceiba 提高了 6 倍。NVIDIA 的研发团队将使用 Ceiba 推进大语言模型、图形（图像/视频/ 3D 生成）和模拟、数字生物学、机器人、自动驾驶汽车、NVIDIA Earth-2 气候预测等领域的 AI 发展，帮助 NVIDIA 推动未来生成式 AI 的创新。

亚马逊云科技与 NVIDIA 的合作加速了生成式 AI 应用软件的开发，并推进医疗和生命科学领域的用例

亚马逊云科技和 NVIDIA 联手，通过 Amazon SageMaker 与 NVIDIA NIM™ 推理微服务的集成，为生成式 AI 提供高性能、低成本的推理。客户可以使用这个组合，将为了便于在 NVIDIA GPU 上运行而经过预编译和优化的 FM 快速部署到 SageMaker，从而缩短生成式 AI 应用的上市时间。

亚马逊云科技和 NVIDIA 携手合作，通过新的 NVIDIA BioNeMo™ FM 扩展计算机辅助药物发现，用于生成化学、蛋白质结构来预测和了解药物分子如何与靶标相互作用。这些新模型不久将在 AWS HealthOmics 上提供，这是一项专门为帮助医疗和生命科学组织存储、查询和分析基因组、转录组和其他全局数据而构建的服务。

AWS HealthOmics 和 NVIDIA 医疗团队还合作推出了生成式 AI 微服务，以推进药物发现、医疗技术和数字健康的发展——为生物、化学、成像和医疗数据提供一个新的 GPU 加速云端点目录，使医疗企业能够在亚马逊云科技上充分利用生成式 AI 领域的最新技术。