新型加速节能 AI 系统开创超级计算的新时代

世界各地的研究人员将在配备最新 NVIDIA Hopper GPU 和 NVIDIA Grace Hopper 超级芯片的系统上,借助生成式 AI 和 HPC 来应对科学和工业领域的重大挑战。
by Rick Merritt

11月13日,NVIDIA 在 SC23 上发布了一系列新技术,将全球各地的科学和工业研究中心推向性能和能效新高。

NVIDIA 高性能计算和超大规模数据中心业务副总裁Ian Buck在SC 大会发表的特别演讲中提到:“NVIDIA的硬件和软件创新正在创造一种新型AI超级计算机。”

其中一些超级计算机将配备内存增强的 NVIDIA Hopper 加速器,另一些则采用全新 NVIDIA Grace Hopper系统架构。它们都将使用扩展的并行结构来运行面向生成式 AI、HPC 和混合量子计算的全栈加速软件。

Buck 将全新 NVIDIA HGX H200 称为“世界领先的 AI 计算平台”。

NVIDIA H200 Tensor Core GPU 配备 HBM3e 内存,可运行不断增长的生成式 AI 模型。

它配备高达 141GB 的 HBM3e,是首款使用这项超快技术的 AI 加速器。在运行 GPT-3 等模型时,NVIDIA H200 Tensor Core GPU 的性能比上一代加速器高出 18 倍。

在其他生成式 AI 基准测试中,它们在一个 Llama2-13B 大语言模型(LLM)上每秒可快速通过 12,000 个 token。

Buck 还展示了一个服务器平台,该平台在一个 NVIDIA NVLink 互联下连接了四个 NVIDIA GH200 Grace Hopper 超级芯片。这一四组芯片的配置使得在一个计算节点内有高达 288 个 Arm Neoverse 核心,以及 2.3 TB 的高速内存 ,实现了16 petaflops 的 AI 性能。

基于四个 GH200 超级芯片的服务器节点,提供 16 petaflops 的 AI 性能。

采用 NVIDIA TensorRT-LLM 开源库的单个GH200超级芯片比一个双插槽 x86 CPU 系统快 100 倍,比一台 x86 + H100 GPU 服务器节能近 2 倍,展现了卓越的节能效果。

Buck说:“加速计算是可持续的计算。通过充分利用加速计算和生成式 AI,我们可以推动各行各业的创新,同时减少对环境的影响。”

新上榜 TOP500 的 49 个系统中有 38 个采用了 NVIDIA 技术

最新发布的全球最快的超级计算机 TOP500 榜单显示,人们正在转向加速、节能的超级计算。

由于诸多新建超级计算机采用了 NVIDIA H100 Tensor Core GPU,NVIDIA 目前在这些世界领先的系统中提供超过 2.5 exaflops 的 HPC 性能,相较此前 5 月榜单中的 1.6 exaflops 有了不少提升。仅在全球超级计算机 Top 10 中,NVIDIA 就提供近 1 exaflop 的 HPC 性能和 72 exaflops 的AI 性能。

在新榜单中,采用 NVIDIA 技术的超级计算机数量再创新高,从 5 月份的 372 个增加到 379 个,其中包括 49 个新上榜超级计算机中的 38 个。

部署在 Microsoft Azure 中的 Eagle 系统是算力最高的新上榜超级计算机,其采用 H100 GPU,在 NDv5 实例中以 561 petaflops 的算力在总榜中排名第三。巴塞罗那的 Mare Nostrum5 排名第 8,而最近在 MLPerf基准测试中创下 AI 训练新纪录的 NVIDIA Eos 排名第 9。

在 Green500 的前 30 名中有 23 个采用了 NVIDIA GPU,彰显了它们的节能优势。配备 H100 GPU 的 Henri 系统蝉联第一,它位于纽约 Flatiron 研究所,能效为每瓦65.09 gigaflops。

使用生成式 AI 探索新冠病毒

美国阿贡国家实验室展现了无限可能,它使用 NVIDIA BioNeMo(一个面向生物分子大语言模型的生成式AI平台)开发了 GenSLM 模型。这个模型可以生成与冠状病毒的现实变种非常相似的基因序列。使用 NVIDIA GPU 以及来自 150 万个新冠病毒基因组序列的数据,它还可以快速识别出新的病毒变种。

这项工作去年获得了戈登·贝尔特别奖,并在包括美国阿贡国家实验室的 Polaris 系统、美国能源部的 Perlmutter 和 NVIDIA 的 Selene 在内的超级计算机上进行了训练。

NVIDIA 医疗业务副总裁 Kimberly Powell 在此次特别演讲中提到:“这只是冰山一角。随着生成式 AI 不断重新定义科学探索,未来充满了无限可能。”

节约时间、金钱和能源

Buck 提到,使用最新技术为工作负载加速可以将系统的成本和能耗降低一个数量级。

例如,西门子与梅赛德斯合作为新其款 EQE 电动汽车分析空气动力学和相关声学。这类模拟此前在 CPU 集群上通常耗时数周时间,而借助最新的 NVIDIA H100 GPU,其速度要快很多。此外,Hopper GPU 使成本降低了 3 倍,能耗降低了 4 倍(如下如所示)。

明年将开启 200 Exaflops 时代

在全球各地,部署这些最新系统将推动科学和工业领域不断取得进步。

Buck 说:“我们已经看到,2024 年将有基于 Grace Hopper 超级计算机的 总计 200 exaflops AI 算力投入生产。”

其中包括德国于希利研究中心的大型 JUPITER 超级计算机。它可以为 AI 训练提供 93 exaflops 的性能,为 HPC 应用提供 1 exaflop 的性能,而能耗仅为 18.2 兆瓦。

GH200 为研究中心带来性能飙升。

基于 Eviden 的 BullSequana XH3000 液冷系统,JUPITER 将使用 NVIDIA quad GH200 系统架构和 NVIDIA Quantum-2 InfiniBand 网络,用于进行气候和天气预测、药物发现、混合量子计算和数字孪生。JUPITER 所采用的 quad  GH200 节点将配置 864GB 的高速内存。

这是 NVIDIA 在 SC23 上宣布的数个使用 Grace Hopper 的新型超级计算机之一。

慧与(Hewlett Packard Enterprise)的 HPE Cray EX2500 系统将为明年投入使用的众多 AI 超级计算机配备 quad GH200。

例如,慧与建设的 OFP-II(一个由日本筑波大学和东京大学共享的先进 HPC 系统)以及 DeltaAI 系统(将使美国国家超级计算应用中心的算力提升三倍)均将采用 quad GH200。

HPE 正在为美国洛斯阿拉莫斯国家实验室建造 Venado 系统,这是在美国部署的首个 GH200,其还将在中东、瑞士和英国建设更多 GH200 超级计算机。

德克萨斯及更多地区采用Grace Hopper

在德克萨斯高级计算中心(TACC),戴尔科技集团正在使用 NVIDIA Grace Hopper 和 Grace CPU 超级芯片建造 Vista 超级计算机。

Buck 表示,包括美国航空航天局艾姆斯研究中心(NASA Ames Research Center)和 Total Energies 在内的全球 100 多个企业和组织已经采购了 Grace Hopper 早期访问系统。

此前已宣布采用 GH200 的用户包括软银布里斯托大学,以及配备 14000 个 NVIDIA A100 GPU 的大型 Leonardo 系统,后者为意大利 Cineca 联盟提供 10 exaflops 的 AI 性能。

超算中心的观点

来自世界各地超算中心的主管介绍了他们采用最新系统的计划及进展。

瑞士国家超级计算中心负责阿尔卑斯超级计算机的主任Thomas Schultess表示:“我们一直在与MeteoWiss ECMWP以及参与ETH EXCLAIM和NVIDIA Earth-2计划的科学家合作打造一个基础设施,以期在大数据分析和超大规模计算的各个方面取得突破。”

德克萨斯高级计算中心(TACC)的执行主任Dan Stanzione在谈到Vista时表示:“我们的各个堆栈都极大提升了能效。”

他说:“这真的是一块垫脚石,推动用户从过去使用的系统转向这种将Grace Arm CPU和Hopper GPU紧密配合的新系统,而且……我们希望在几年后部署Horizon时,其规模将是Vista的10或15倍。”

加速量子进程

研究人员们还在利用当今的加速系统开拓通往未来超级计算机的道路。

于利希研究中心量子信息处理研究小组负责人 Kristel Michelson 表示,在德国,JUPITER 超级计算机“将彻底改变气候、材料、药物发现和量子计算领域的科研工作”。

她说:“JUPITER 的架构还允许量子算法与并行 HPC 算法无缝集成,这对于有效的量子 HPC 混合模拟来说是必需的。”

CUDA Quantum 推动进步

此次演讲还展示了 NVIDIA CUDA Quantum —— 一个用于编程CPU、GPU 和 QPU(量子计算机)的平台,是如何推进量子计算研究的。

例如,全球最大的化工企业巴斯夫的研究人员开创了一种新的混合量子经典方法,用于模拟可以保护人类免受有害金属侵害的化合物。此外,美国布鲁克海文国家实验室和 HPE 的研究人员也分别在利用 CUDA Quantum 推动前沿科研工作。

NVIDIA 还宣布与量子编程工具开发商 Classiq 合作,在以色列最大的教学医院 Tel Aviv Sourasky Medical Center 创建一个生命科学研究中心。该中心将使用 Classiq 软件和运行于 NVIDIA DGX H100 系统之上的 CUDA Quantum。

另外,Quantum Machines 公司将在以色列国家量子中心部署首个配备 Grace Hopper 超级芯片的 NVIDIA DGX Quantum,旨在推动各个科学领域的进步。这个 DGX 系统将连接到一台 Quantware 的超导 QPU 和一台 ORCA Computing 的光子 QPU,两者均由 CUDA Quantum 驱动。

Buck说:“在短短两年内,NVIDIA 的量子计算平台已经拥有 120 多个合作伙伴(如上图),这证明它是一个开放、创新的平台。”

总的来说,诸多科研领域的工作揭示了一种新趋势,那就是将数据中心规模的加速计算与NVIDIA 的全栈创新相结合。

他总结道:“加速计算正在为可持续计算铺平道路,并且已经取得了诸多进步,不仅提供令人惊叹的技术,而且将开创更加可持续、更有影响力的未来。”