NVIDIA 和 合作伙伴将 ARM 生态系统从百亿亿级 (Exascale) 扩展到边缘

高性能计算社区正在转向 ARM,寻求实现功能的下一次巨大飞跃,而 NVIDIA 正在加速这一过程。

by Paresh Kharya

世界各地的超级计算中心都在寻求一种灵活、节能高效的替代方案,以使其系统多样化,他们正在转向 ARM,以获得百亿亿级 (Exascale) 超级计算机。

ARM 是全球备受欢迎的 CPU 架构,但得益于其合作伙伴、软件和开发工具组成的庞大生态系统,x86 架构占据超过 97% 的数据中心市场。

NVIDIA 长期以来一直支持 x86 和 IBM POWER 等所有 CPU 架构。NVIDIA 同样支持 ARM 架构。我们希望通过收购该公司来为我们的合作伙伴和客户创建独特的组合,从而极大地扩展和加速此项工作。

“节能高效且灵活的 ARM 架构是高性能计算、云和边缘应用程序等所有类型的工作负载的理想之选。NVIDIA 为加速 ARM 应用程序而做的所有努力将推动创新、强化生态系统,并为客户和最终用户提供更多选择。”ARM 知识产权集团总裁 Rene Haas 在 GTC 最近的一次演讲中这样说道。

超级计算机 ARM 向百亿亿级 (Exascale) 计算领域进军

ARM 的开放式架构使组织能够灵活地设计针对其工作负载优化的 CPU。世界各地的超级计算中心都在利用此功能强大的选择。

SiPearl 创始人兼首席执行官 Philippe Notton 说:“作为由欧洲处理器计划构思的基于 ARM 的高性能 CPU 的提供商,SiPearl 致力于推动 ARM 生态系统发展。”

“在 GPU 加速节点中实施 CPU 需要稳定的开发环境、特定领域的库、开发套件和 HPC 应用程序调优。NVIDIA 在所有这些领域的投资和专业知识正在推动生态系统和市场的持续发展。”他补充道。

韩国电子通信研究院 (ETRI) 正在为未来的超级计算机开发一种基于 ARM 的 CPU。它将支持双精度和混合精度数学运算,能够处理 HPC 和 AI 应用程序。

印度的 C-DAC 正在构建基于 ARM 的 CPU,为其用于科学研究和 AI 计划的百亿亿级 (Exascale) 系统提供支持。

NVIDIA ARM 提供新工具

这些是基于 ARM 的 HPC 计划中的一部分,可以利用 NVIDIA HPC 软件开发套件(完整的编译器、库和工具套件),简化应用程序开发并移植到 ARM 架构。SDK 是加速 ARM HPC 生态系统的基础。

NVIDIA HPC SDK for Arm
NVIDIA HPC SDK 帮助开发 HPC 应用程序并将其移植到 ARM。

新软件版本 HPC SDK 21.7 将于 7 月份发布,能够提供更多的 ARM 内联函数,编译器可以采用这些特性来调优性能。其还具备能够专门针对 ARM CPU 优化的定制数学函数。

此外,NVIDIA 计划支持 ARM Neoverse 平台中的可伸缩矢量扩展 (SVE)。SVE 首次亮相于 Fujitsu 的 A64FX,为 Fugaku 提供支持,在全球最快超级计算机的 TOP500 排行榜上位居榜首。

加速 ARM 套件将于 7 月发布

我们还使用 NVIDIA ARM HPC 开发者套件,使得在加速 ARM 系统上创建和评估 HPC 和 AI 应用程序以及对其进行基准测试变得更加轻松。这是一款由 NVIDIA 和 GIGABYTE 提供的平台,以软件形式加载在服务器上,由基于 Ampere Altra ARM 的 CPU、NVIDIA A100 Tensor Core GPUNVIDIA BlueField-2 DPU 提供支持,可加速网络建设。

来自洛斯阿拉莫斯国家实验室等 70 多个领先组织的开发者已经申请抢先体验这款将于 7 月推出的工具套件。

洛斯阿拉莫斯国家实验室的新一代系统的首席架构师 Steve Poole 说:“我们正在使用 NVIDIA HPC SDK 为 ARM 架构构建一些关键应用程序以及 AI/ML 工作流程。” 他说:“NVIDIA ARM 开发者套件将促进代码转向 NVIDIA GPU 和 ARM CPU。”

使用应用程序来武装研究人员

NVIDIA 还提供分子动力学(NAMD、Tinker-HP)、材料建模 (Quantum Espresso) 和其他领域的热门 HPC 应用程序的 ARM 架构版本。

这些应用程序可作为 NVIDIA NGC(GPU 优化软件的注册服务器)中的容器。这些容器能够简化基于 ARM 的系统上的应用程序部署,因此研究人员可以专注于推动科学发展。

与更多合作伙伴携手扩展 ARM

基于 ARM 的处理器与 NVIDIA GPU 相结合所形成的强大功能能够满足超级计算中心之外的高性能计算需求。

例如,NVIDIA GPU 和 Ampere Computing 的 Ampere Altra CPU 正在为包括数据中心和云在内的市场提供服务。在边缘计算方面,NVIDIA 正与 Marvell Semiconductor 合作,将其基于 OCTEON ARM 的处理器与 NVIDIA 的 GPU 相结合,加快 AI 工作负载处理速度,实现网络优化与安全。

我们之间的合作还涉及系统提供商。GIGABYTE 在提供加速 ARM 服务器方面一直处于领先地位。

GIGABYTE 首席执行官 Etay Lee 说:“我们很高兴能够加入 ARM 生态系统,体验由 NVIDIA 的 GPU 和 DPU 以及 Ampere Altra CPU 提供支持的 ARM 服务器产品组合。”

他补充说:“我们致力于在硬件、软件开发工具和 ARM 应用程序等方面与 NVIDIA 合作促进 ARM 生态系统发展,帮助各行各业的客户加速处理 HPC 工作负载。”

未来可期,大有可为

我们也在扩展 NVIDIA 认证计划(已有十几家原始设备制造商提供的近 40 种系统),将 ARM 提供支持的系统涵盖在内,以便各组织可以拥有更多选择,选出他们能够自信部署的预测试系统类型。

GIGABYTE 和 Wiwynn 计划推出采用基于 ARM Neoverse 的 CPU 以及 NVIDIA Ampere GPU 和/或 BlueField-2 DPU 的服务器。这些服务器预计将于明年上市,并将在上市时提交进行 NVIDIA 认证。

在 ARM、NVIDIA 和我们的合作伙伴共同推动下,加速、节能高效的计算技术的潜力锋芒初露,前景可期。

如需了解详情,请收听 6 月 28 日(星期一)上午 9:30(太平洋夏令时间)ISC 2021 上的 NVIDIA 特别演讲,从 NVIDIA 的 Marc Hamilton 处获得近期新闻的深入概述,随后与 NVIDIA HPC 专家进行现场问答。