搭载 NGC 容器的 NVIDIA vComputeServer 将 GPU 虚拟化引入 AI、深度学习和数据科学

作者 Anne Hecht

VMware、思科、戴尔、红帽等行业领军者均支持 vComputeServer,力求精简 GPU 服务器的部署和管理。

NVIDIA 的虚拟 GPU (vGPU) 技术业已改变虚拟客户端计算,现可支持 AI、深度学习和数据科学的服务器虚拟化。

AI 工作负载摆脱了先前仅限 CPU 支持的束缚,现可轻松部署到搭载全新 vComputeServer 软件和 NVIDIA NGC 的 VMware vSphere 等虚拟化环境中。通过与 VMware 合作,此架构将能帮助组织在客户数据中心和 VMware Cloud on AWS 之间无缝迁移 GPU 上的 AI 工作负载。

vComputeServer 使数据中心管理员能够在虚拟化环境中运行 GPU 服务器上的 AI 工作负载,从而提高安全性、利用率和可管理性。IT 管理员可以使用包括 vCenter 和 vMotion 在内的 VMware vSphere 等 hypervisor 虚拟化工具来管理所有数据中心应用程序,如 NVIDIA GPU 上运行的 AI 应用程序。

许多公司将 GPU 部署在数据中心内,而却让 AI 训练和推理等 GPU 加速工作负载在裸机上运行。这些 GPU 服务器通常是孤立的,需要对它们进行单独管理。这就会限制利用率和灵活性。

借助 vComputeServer,IT 管理员可以更有效地精简 GPU 加速虚拟化服务器的管理,同时保留现有工作流并降低总体运营成本。与 CPU 服务器相比,搭载四块 NVIDIA V100 GPU 的 vComputeServer 可将深度学习提速 50 倍,进而提供接近裸机的性能。

今天,我们宣布在原先支持红帽和 Nutanix 等基于 KVM 的 hypervisor 的基础上,增加 VMware vSphere 支持。这使管理员能够使用相同的管理工具来管理 GPU 集群,如同管理数据中心的其他组件一般。

虚拟 GPU 可提升任何工作负载的性能

通过在 vGPU 产品组合中加入 NVIDIA vComputeServer,NVIDIA 增加了对数据分析、机器学习、AI、深度学习、高性能计算 (HPC) 和其他服务器工作负载的支持。vGPU 产品组合中还包括虚拟桌面产品,例如面向知识工作者的 NVIDIA GRID 虚拟 PC 和 GRID 虚拟应用程序,以及面向专业制图人员的 Quadro 虚拟数据中心工作站

NVIDIA vComputerServer 提供多种功能:GPU 共享功能允许多个虚拟机由一块 GPU 提供动力支持,GPU 聚合功能则允许一块或多块 GPU 支持单个虚拟机。这有助于大幅提升该产品的利用率和可购性。

vComputeServer 的特性包括:

  • GPU 性能:深度学习训练速度高达 CPU 的 50 倍,可媲美在裸机上运行 GPU 的性能。
  • 高级计算:纠错码和动态页面引退可防止用于高精度工作负载的数据发生损坏。
  • 实时迁移:可在迁移支持 GPU 的虚拟机时大幅缩短中断或停机时间。
  • 更高的安全性:企业可以将服务器虚拟化的安全优势扩展到 GPU 集群。
  • 多租户隔离:可隔离工作负载,从而对单个基础架构上的多个用户提供安全支持。
  • 管理和监控管理员可以使用相同的 hypervisor 虚拟化工具管理 GPU 服务器,同时可在主机、虚拟机和应用程序级别进行监控。
  • 广泛的 GPU 支持:vComputeServer 受以下 GPU 的支持:NVIDIA T4V100 GPUQuadro RTX 8000 和 6000 GPU 以及前几代采用 Pascal 架构的 P40、P100 和 P60 GPU

NVIDIA NGC 增加 VMware vSphere 支持

NVIDIA NGC 是我们针对深度学习、机器学习和 HPC 开发的 GPU 优化软件中心。它提供超过 150 个容器、预训练模型、训练脚本和工作流,旨在加速 AI 从概念到生产的整个流程;此外还包括 CUDA 加速数据科学软件 RAPIDS

RAPIDS 提供一系列开源库,可加速包括数据加载、ETL、模型训练和推理在内的整个数据科学流程。该软件使数据科学家得以更快速地完成工作,并可显著增加其所能创建的模型类型。

所有 NGC 软件均可部署到搭载 vComputeServer 的 VMware vSphere 等虚拟化环境中。

IT 管理员可以使用 VMware vSphere 等 hypervisor 虚拟化工具来管理 NVIDIA GPU 上运行的虚拟机所含的全部 NGC 容器。

此外,NVIDIA 还可帮助 IT 人员在生产中更快部署 GPU 服务器,以及经过验证的 NGC-Ready 服务器。企业级支持还可为用户和管理员提供 NVIDIA NGC 软件的直接专家支持,从而大幅降低风险并提高生产率。

行业支持

多家领先的行业合作伙伴均已对 NVIDIA vComputeServer 提供支持,其中包括戴尔、思科和 VMware 等。聆听他们的看法

上市情况

NVIDIA vComputeServer 将于 8 月上市。

如需了解详情,请访问 NVIDIA vComputeServer