谷歌云和 NVIDIA 合作扩展 AI 开发规模

全新 AI 基础设施产品和集成实现更加开放和可及的 AI
by 英伟达中国

GTC —— 谷歌云和 NVIDIA 宣布深化合作,为机器学习社区提供技术,使他们能够更快速、轻松地构建、扩展和管理生成式 AI 应用软件。

为了继续为其产品和开发者带来 AI 突破,谷歌宣布在谷歌云上采用全新 NVIDIA Grace Blackwell AI 计算平台以及 NVIDIA DGX Cloud 服务。此外,搭载 NVIDIA H100 的 DGX™ Cloud 平台目前已经在谷歌云上全面推出。

在双方最近合作优化 Gemma 系列开放模型的基础上,谷歌还将采用 NVIDIA NIM 推理微服务,为开发者提供一个开放、灵活的平台,以便他们使用自己喜欢的工具和框架进行训练和部署。双方还宣布在 NVIDIA GPU 以及搭载 NVIDIA H100 和 L4 Tensor Core GPU 的 Vertex AI 实例上为 JAX 提供支持。

谷歌云首席执行官 Thomas Kurian 表示:“我们与 NVIDIA 的长期合作始于硬件层面,并延伸到我们的整个产品组合 —— 从最先进的 GPU 加速器到软件生态系统,再到我们的托管 Vertex AI 平台。我们的团队与 NVIDIA 携手合作,致力于为机器学习开发者提供一个易于使用、高度开放且全面的 AI 平台。”

NVIDIA 创始人兼首席执行官黄仁勋表示:“企业正在寻找能够在几周或几个月而不是几年的时间内可充分使用生成式 AI 的解决方案。随着基础设施产品的扩展及与 NVIDIA 全栈 AI 的全新集成,谷歌云将继续为客户提供一个开放、灵活的平台,以轻松地扩展生成式 AI 应用。”

NVIDIA 和谷歌云之间的新集成建立在双方长期以来的承诺之上 —— 致力于为 AI 社区提供 AI 堆栈各层领先功能。此次合作伙伴关系的扩展主要包括:

  • 采用 NVIDIA Grace Blackwell新的 Grace Blackwell 平台使企业能够在万亿参数大语言模型上构建和运行实时推理。谷歌正在采用该平台进行各种内部部署,并将成为首批提供 Blackwell 赋能实例的云服务提供商之一。
  • Grace Blackwell 驱动的 DGX Cloud 即将登陆谷歌云:谷歌将把 NVIDIA GB200 NVL72 系统引入其高度可扩展的高性能云基础设施中,该系统组合了 72 颗 Blackwell GPU 和 36 颗 Grace CPU,通过第五代 NVLink® 实现互连。NVIDIA GB200 NVL72 系统专为万亿参数大语言模型时代的节能训练和推理而设计,将通过 DGX Cloud 提供。DGX Cloud 是一个为企业开发者构建和使用 LLM 提供无服务器体验的 AI 平台,目前已经在由 NVIDIA H100 Tensor Core GPU 驱动的谷歌云 A3 虚拟机实例上全面推出。
  • 在 GPU 上支持 JAX:谷歌云和 NVIDIA 携手合作,将 JAX 的优势引入 NVIDIA GPU,让更广泛的机器学习社区能够使用大规模大语言模型训练。JAX 是一个面向编译器和 Python 原生的高性能机器学习框架,这使其成为大语言模型训练中易于使用和性能出色的框架之一。通过 MaxText加速处理套件 (XPK),AI 从业者现在可以在谷歌云上使用支持 NVIDIA H100 GPU 的 JAX。
  • 谷歌 Kubernetes Engine (GKE) 上的 NVIDIA NIM:作为 NVIDIA AI Enterprise 软件平台的一部分,NVIDIA NIM 推理微服务将被集成到 GKE 中。NIM 基于包括 TensorRT-LLM™ 在内的推理引擎开发,有助于加快企业中生成式 AI 的部署,支持各种领先 AI 模型,并确保无缝、可扩展的 AI 推理。
  • 支持 NVIDIA NeMo:通过谷歌 Kubernetes Engine(GKE)和谷歌云 HPC Toolkit,谷歌云使 NVIDIA NeMo™ 框架在其平台上的部署变得更加容易。这使开发者能够自动化和扩展生成式 AI 模型的训练和服务,并通过可启动开发流程的定制蓝图来快速部署交钥匙环境。NVIDIA AI Enterprise 中的 NVIDIA NeMo 也可在谷歌市场中获取,这为客户提供了另一种轻松访问 NeMo 和其他框架的方式,从而加速 AI 开发。
  • Vertex AI 和 Dataflow 扩展对 NVIDIA GPU 的支持:为推进数据科学和分析,Vertex AI 现支持由 NVIDIA H100 GPU 驱动的谷歌云 A3 VM 和由 NVIDIA L4 Tensor Core GPU 驱动的 G2 VM。这为 MLOps 团队提供了可扩展的基础设施和工具,使其能够自信地管理和部署 AI 应用软件。Dataflow 还扩展了对 NVIDIA GPU 加速数据处理的支持。

谷歌云长期以来一直提供 GPU VM 实例,这些实例采用了 NVIDIA 的前沿硬件和领先的谷歌创新产品。NVIDIA GPU 是谷歌云 AI 超级计算机 (AI Hypercomputer) 的核心组件,该超级计算架构将性能优化的硬件、开放的软件和灵活的消费模式融为一体。这样的全面合作伙伴关系使 AI 研究员、科学家和开发者能够训练、微调和服务大型且复杂的 AI 模型。现在,这些备受喜爱的工具和框架在谷歌云上得以联合优化和提供。

Runway 首席技术官兼联合创始人 Anastasis Germanidis 表示:“Runway 的文生视频平台由 AI Hypercomputer 提供支持。在底层,由 NVIDIA H100 GPU 驱动的 A3 VM 使我们的训练性能与 A2 VM 相比大幅提升,帮助我们的 Gen-2 模型实现了大规模训练和推理。使用 GKE 来协调我们的训练工作,这让我们能够在单一结构中扩展到数千颗 H100 GPU,以满足客户不断增长的需求。”

Palo Alto Networks 资深机器学习工程师 Ashwin Kannan 表示:“通过迁移至谷歌云,并利用配备有 NVIDIA T4 GPU、由 NVIDIA L4 GPU 驱动的 G2 VM 和 Triton 推理服务器的 AI Hypercomputer 架构,我们看到了模型推理性能的显著提升。同时,谷歌云的灵活性所带来的新技术将我们的托管成本降低了 15%。”

Writer 公司联盟总监 Danny Leung:“通过谷歌和 NVIDIA 富有成效的合作,Writer  的平台实现了全面整合。我们能够将 NVIDIA GPU 最大程度地用于训练和推理。我们利用 NVIDIA NeMo 来构建工业级模型,每秒生成 99 万个单词,每月 API 调用次数超过万亿次。我们正在提供高质量的模型,其质量超过了那些拥有更大团队和更多预算的公司,而所有这些成就都离不开与谷歌和 NVIDIA 的合作。谷歌和 NVIDIA 将 AI 领域的专业知识带给我们的企业客户,使他们能够在短短几天内即可建立有意义的 AI 工作流,而无需耗费数月或数年。”

在 3 月 18 日至 21 日举行的全球 AI 大会 GTC 上,欢迎莅临 808 号展台,了解更多关于谷歌云与 NVIDIA 合作的信息。