瑞典AI超级计算机落地:算力高达300 Petaflops,助推北欧研究工作在Linköping University,有一款专门用于AI研究的NVIDIA DGX SuperPOD系统,该系统以一位瑞典化学先驱的名字命名。

by Fredric Wall

200年前,一位瑞典医生推动了化学研究的发展;如今,一台以他的名字命名的超级计算机将为人们再次提供创新机会。

一台为纪念Jöns Jacob Berzelius而以他的名字正式命名的超级计算机致力于将AI打造成新世纪的核心技术。

Berzelius发明了化学速记法(比如H20),并发现了包括硅在内的多个元素。现在,在距离他的出生地——瑞典中南部不到70公里的Linköping University里,有一个300 Petaflops的系统同他一样推动着未来的创新。

Linköping University国家超级计算机中心(NSC)技术总监Niclas Andersson表示:“瑞典很多城市都有以Berzelius名字命名的广场或街道,但是大众对他可能并不是很了解。”基于NVIDIA DGX SuperPOD的系统就孕育于Linköping University国家超级计算机中心。

BerzeLiUs系统的速度将是瑞典目前最快计算机的两倍,并将排在最新全球TOP500超级计算机排行榜的前10%。

雄心勃勃的AI计划

Andersson等人都希望大家能感受到这项为BerzeLiUs超级计算机制定的宏伟工作计划所带来的连锁反应。首先,这台超级计算机将被用于多达7个为期两年的项目,这些项目致力于在无线通信、网络安全、大型物联网和高效编程等领域实现飞跃式发展。

BerzeLiUs supercomputer in Sweden e
BerzeLiUs系统

其次,瑞典研究人员还可以使用该系统与新加坡南洋理工大学(NTU)的同僚长期合作开展六项新的研究工作,包括寻找新方法通过可视化加强数据分析、开发更安全的AI算法、协调多个AI模型统一调度NTU的校园巴士网络。

这些研究工作都属于瑞典最大AI创新私人研究计划——Wallenberg Artificial Intelligence, Autonomous Systems and Software Program(WASP)的一部分。该项目历时15年,目前已经招募了超过30名国际研究人员,并吸引了40家公司展开合作。

助推科学创造更加美好的世界

该项目由瑞典最大的私人研究资助组织——克努特和爱丽丝·沃伦伯格基金会(Knut and Alice Wallenberg Foundation)牵头。该基金会为WASP捐助了55亿克朗(6.5亿美元)中的大部分资金。此外,在去年10月该基金会还向Linköping University捐赠了3亿克朗(3,600万美元),用于为WASP和其他研究人员建造和运行BerzeLiUs超级计算机。

去年12月,克努特和爱丽丝·沃伦伯格基金会举办了一场线上活动,吸引了来自爱立信、宜家、沃尔沃和瑞典最大银行之一——北欧斯安银行集团的演讲者。活动中,基金会副主席Marcus Wallenberg指出,学界和业界的合作对于能够在社会上产生积极影响的研究至关重要。在BerzeLiUs系统的揭幕仪式上,Wallenberg与NVIDIA首席执行官黄仁勋进行了交流。

毫无疑问,AI逐渐成为我们日常生活的一部分。

25年来,Andersson始终在NSC从事高性能计算工作。他表示:“AI将会无处不在。未来,将渗透到更多我们当下还想象不到的领域。”

新组合:HPC+AI

Andersson表示:“以前,HPC的主要用途是模拟;而如今,随着AI的到来,模拟已成为新型数据分析的重要数据来源,使计算能够被应用于更加广泛的领域,这是一个很大的转变趋势。”

具体而言,BerzeLiUs系统将帮助研究人员扩展他们的工作规模,使他们能够处理更大的数据集和模型,借助AI推动研究进展。

Andersson表示:“大多数人一直在使用性能不如DGX系统的单机,所以未来几年我们最重要的任务就是帮助开发可扩展的算法。超大规模的问题可以通过使用大量GPU节点予以解决。”

Jöns Jacob Berzelius, Swedish chemistry pioneer
Jöns Jacob Berzelius

新超级计算机的配置

BerzeLiUs系统由60个NVIDIA DGX A100系统组成,并通过200 Gbit/s的NVIDIA Mellanox InfiniBand HDR 网络连接。该网络将各处理器与来自DataDirect Networks的四台存储服务器上的1.5 Petabytes闪存相连。

数据对于AI而言至关重要。InfiniBand网络能够确保数据快速进入系统。Andersson表示:“60个DGX A100系统可以快速处理大量数据。因此,我们所需要进行的第一个升级就是购买更多的存储设备。”

为了能够尽快启动这台超级计算机,NSC邀请NVIDIA和Atos配置系统软件。该堆栈包括Atos Codex AI 套件以及 NGC访问权限。NGC是NVIDIA AI和高性能计算GPU优化软件中心。

最终,这些重要的数据将被像Berzelius这样推动社会进步的人士善加利用。

Andersson表示:“未来,AI将渗透并改变所有研究学科。因此,我们需要更多新探索者加入AI领域。”