极快速度:研究人员采用全球运行速度超快的 AI 超级计算机

by Dion Harris

通过 6000 块 NVIDIA A100 GPU 提供 4 exaflops 的混合精度性能,帮助美国国家能源研究科学计算中心 (NERSC) 推动科学发展。

它将帮助拼合宇宙 3D 地图,并探索绿色能源的亚原子相互作用等内容。

Perlmutter 于今天在 NERSC 正式投入使用,它是一台超级计算机,将为 7000 多名研究人员提供近 4 exaflops 的 AI 性能。

这使 Perlmutter 在 AI 使用的 16 位和 32 位混合精度数学运算方面成为运行速度更快的系统。而且,此性能不包括将于今年晚些时候登陆劳伦斯伯克利国家实验室系统的第二阶段性能。

超过 20 款应用程序已准备率先使用 Perlmutter(搭载 A100 的超大系统)中的 6159 块 NVIDIA A100 Tensor Core GPU。其目标是在天体物理学、气候科学等领域推动科学发展。

宇宙的 3D 地图

在一个项目中,此超级计算机将帮助合成迄今为止可见宇宙的最大 3D 地图。它将处理来自暗能量光谱仪 (DESI) 的数据,这是一种能够拍摄宇宙的相机,可在一次曝光中拍摄多达 5000 个星系。

研究人员需要 Perlmutter GPU 的速度来捕获一个晚上的几十次曝光,从而确定次日晚间将 DESI 对准何处。在先前的系统上,为发布一年的数据做准备需要数周或数月的时间,但 Perlmutter 可以帮助研究人员在短短几天内完成这项任务。

帮助研究人员为 Perlmutter 做代码准备的 NERSC 数据架构师 Rollin Thomas 说:“GPU 使我们的准备工作速度提升了 20 倍,这太令人欣喜了。”

Perlmutter 的坚持获得回报

DESI 地图旨在揭开暗能量的面纱,即宇宙加速膨胀背后的神秘物理原理。暗能量在很大程度上是在 Saul Perlmutter 的 2011 年诺贝尔奖获奖著作中发现的,他现在仍是伯克利实验室中积极活跃的天体物理学家,并且帮助将以其命名的新超级计算机投入使用。

使用 Perlmutter 开展诺贝尔奖获奖发现后的项目工作的 Thomas 说:“在我看来,Saul 就是一个例子,说明若人们将无止境的好奇心和对乐观的承诺加以适当结合,将会开出怎样的果实。”

超级计算机融合 AI 和 HPC

类似的精神为许多将在 NERSC 的新超级计算机上运行的项目提供了动力。例如,材料科学领域的工作旨在发现原子间的相互作用,从而为寻求更好的电池和生物燃料指明方向。

传统的超级计算机勉强能在几纳秒内处理 Quantum Espresso 等程序生成几个原子的模拟所需的数学运算。但是,通过将高精度的模拟与机器学习相结合,科学家可以获得更长的时间来研究更多的原子。

帮助研究人员启动此类项目的 NERSC 应用程序性能专家 Brandon Cook 说:“过去无法对电池接口等大型系统进行充分的原子模拟,但现在科学家计划使用 Perlmutter 来实现这一目标。”

这就是 A100 中 Tensor Core 发挥的独特作用。它们能够加速用于模拟的双精度浮点数学和深度学习所需的混合精度计算。

去年 11 月,类似作品也赢得了 NERSC 的认可,入围 Gordon Bell 决赛,其 BerkeleyGW 计划使用了 NVIDIA V100 GPU。在 NERSC 领导该项目并负责监督应用程序性能的 Jack Deslippe 说:“借助 A100 的强大功能,这些研究工作有望提升到更高水平。”

软件奏响 Perlmutter 的华丽乐章

Deslippe 表示,软件也是 Perlmutter 的战略组成部分,并指出系统使用的 NVIDIA HPC SDK 支持 OpenMP 和其他热门编程模型。

另外,RAPIDS(适用于基于 GPU 的数据科学的开源代码)将加快 NERSC 日渐壮大的 Python 程序员团队的工作速度。它已在一个项目中证明了自身价值:相比先前的 CPU,它在分析 NERSC Cori 超级计算机的所有网络流量时速度加快了近 600 倍。

Thomas 说:“这使我们相信,RAPIDS 将在通过数据加速科学发现方面发挥重要作用。”

应对新冠肺炎 (COVID) 挑战

尽管发生疫情,Perlmutter 依然如期而至。但是,相关团队必须重新思考关键步骤,比如其如何为居家为系统的百亿亿级应用程序编写代码的研究人员运行黑客马拉松。

同时,Hewlett Packard Enterprise 的工程师帮助组装了系统的第一阶段,他们还与升级其设施来适应新系统的 NERSC 工作人员密切协作。Thomas 说:“我们非常感谢现场人员为启动系统而做的工作,特别是在需要遵守所有特殊新冠肺炎 (COVID) 协议的情况下。”

在虚拟发布会上,NVIDIA 首席执行官黄仁勋对伯克利实验室的工作人员计划使用超级计算机推动科学发展一事感到十分高兴。

黄先生说:“Perlmutter 能够融合 AI 和高性能计算,这将助力实现材料科学、量子物理学、气候预测、生物研究等各种领域的突破。”

AI 超级计算“知时节”

今天的虚拟剪彩是一个真正的里程碑。

NERSC 数据和分析服务团队的代理负责人 Wahid Bhimji 说:“美国能源部正在大力推动 AI 在科学领域的应用,致力将概念验证引入粒子物理学、材料科学和生物能源等领域的生产用例。”

他补充道:“人们正在探索越来越大的神经网络模型,并且需要访问更强大的资源,因此采用 A100 GPU、全闪存文件系统和串流数据功能的 Perlmutter 能够非常及时地满足人们对 AI 的需求。”

想要在 Perlmutter 上运行工作的研究人员可以提交使用系统的请求