Microsoft Azure 宣布正式推出 NVIDIA A100 GPU VM

by Ian Buck

Microsoft Azure 宣布正式推出 ND A100 v4 VM 系列,这是其功能非常强大的虚拟机,适用于超级计算机级 AI 和 HPC 工作负载,由 NVIDIA A100 Tensor Core GPU 和 NVIDIA HDR InfiniBand 提供支持。

NVIDIA 与 Azure 合作构建了此纵向扩展和横向扩展 AI 平台,其中综合采用了突破性的 NVIDIA Ampere 架构 GPUNVIDIA 网络技术以及 Azure 高性能互连和虚拟机网络的强大功能,使人人都能够畅享 AI 超级计算能力

在解决 AI 和 HPC 领域的重大挑战时,规模是一切症结所在。自然语言处理、推荐系统、医疗健康研究、药物研发和能源等领域都在加速计算的推动下取得了巨大进展。

这些进展大部分得益于大规模运行的应用程序。为加速这一趋势,应用程序需要在可纵向扩展和横向扩展且可访问的灵活架构上运行。

ND A100 v4 VM 将单个 VM 中的 8 块 NVIDIA A100 GPU 与 NVIDIA HDR InfiniBand 结合在一起,使每块 GPU 的数据带宽达到 200Gb/s。每个 VM 的互联带宽高达 1.6 Tb/s。

而且,对于要求严苛的 AI 和 HPC 工作负载,这些可以进一步横向扩展到成千上万块 NVIDIA A100 GPU,使用同一低延迟 InfiniBand 网络,为多节点分布式计算提供计算和网络功能。

随时可供开发者使用

开发者可以通过多种选项来充分利用 ND A100 v4 VM 中 NVIDIA A100 GPU 的强大性能,以此为其应用程序提供支持,既可支持应用程序开发,也可支持应用程序部署后的基础设施管理。

为简化和加快开发,NVIDIA NGC 目录提供即时可用的 GPU 优化型应用程序框架、容器、预训练模型、库、SDK 和 Helm 图表。通过 Azure Marketplace 上针对 AI 和 HPC 预构建的 NVIDIA GPU 优化图像,开发者只需单击几下即可从 NGC 目录中获取 GPU 加速软件。

ND A100 v4 VM 还支持在 Azure 机器学习服务中使用,用于交互式 AI 开发、分布式训练、批量推理和 ML Ops 自动化。

通过使用与 Azure ML 集成的开源推理服务应用程序 NVIDIA Triton 推理服务器,借助 ND A100 v4 VM 在生产中部署机器学习流程的工作得到进一步简化,可更大限度地提高 GPU 和 CPU 的性能和利用率,帮助更大限度地降低部署的运营成本。

不久之后,开发者和基础设施经理将能够使用 Azure Kubernetes Service(一种完全托管式 Kubernetes 服务),借助 NVIDIA A100 GPU 来部署和管理 ND A100 v4 VM 上的容器化应用程序。

请访问 Microsoft Azure 详细了解 ND A100 v4 VM,并开始在云上构建创新解决方案。

有关更多内容,请观看我与 Microsoft 公司副总裁 Girish Bablani 联合发表的“Azure: Empowering the World with High-Ambition AI and HPC”(Azure:构筑雄心勃勃的 AI 和 HPC,助力世界发展)GTC21 演讲。