戈登贝尔奖决赛入围选手利用NVIDIA技术对抗COVID,推动科学发展

四组团队利用NVIDIA加速计算和人工智能平台开展研究工作,跻身戈登贝尔常规奖或COVID研究特别奖角逐,其中两组团队的十亿原子模拟令人惊叹
by Dion Harris

两个10亿个原子模拟,两项对SARS-CoV-2病毒如何工作的新见解,以及一个加速药物发现的新AI模型。

这些都是戈登贝尔奖决赛选手的成果。戈登贝尔奖被认为是高性能计算领域的诺贝尔奖。参赛选手们借助NVIDIA技术,利用人工智能、加速计算、或两者兼施,推动科学发展。

COVID-19研究特别奖的决赛入围者利用人工智能将多项模拟相连通,以一个全新的层面清晰地展示了病毒如何在宿主体内复制。

这项由美国阿贡国家实验室的计算生物学家Arvind Ramanathan领导的研究,提供了一种方法来提高用于探索蛋白质结构的传统工具的分辨率。这可以为阻止病毒传播提供新的见解。

该研究团队的成员来自美国和英国的十几家机构,他们设计了一个工作流程,该工作流程在各系统中运行,包括慧与公司(HPE)构建的基于NVIDIA A100的系统Perlmutter,以及阿贡国家实验室的NVIDIA DGX A100系统

论文中写道:“为综合生物学进行多站点数据分析和模拟的能力,对于利用难以转移的大型实验数据将是非常宝贵的。”

作为研究工作的一部分,该团队开发了一种技术,基于GPU,利用常用的NAMD程序加快分子动力学研究。他们还利用NVIDIA NVLink来提高数据的速度,达到了“远超目前传统HPC网络互连或PCIe传输所能达到的水平”。

高保真度的十亿原子

南佛罗里达大学物理学教授Ivan Oleynik带领的团队凭借首次对10亿原子进行高精度模拟而入围常规的戈登贝尔奖。它以23倍的速度,打破了去年戈登贝尔奖得主创造的纪录

Oleynik表示:“发现以前从未见过的现象是件令人高兴的事,这是真正意义上的大成就,让我们为之骄傲。”

碳原子在极端温度和压力下的模拟,为新的能源来源开启了一扇门,并有助于描述遥远星球的构成。它特别令人震惊,因为该模拟具有量子级的准确性,能够真实地反映原子间的作用力。

Oleynik表示:“这是只有通过在强大的GPU超级计算机上应用机器学习技术才能达到的精度,人工智能正在为科学研究的方式带来革命。”

该团队在美国能源部的Summit 超级计算机上采用4,608台IBM Power AC922服务器和27,900个NVIDIA GPU,该计算机由IBM建造,是世界上最强大的超级计算机之一,它体现出了其代码能够以几乎100%的效率,扩展到200亿个原子或更多的模拟。

该代码可供任何有志在材料科学领域突破创新的研究人员使用。

致命液滴的内部

在另一个10亿原子模拟中,COVID-19特别奖的第二组入围团队展示了空气中液滴的Delta变体(如下图)。它揭示了传播COVID和其他疾病的生物力量,首次提供了对气溶胶的原子级观察。

根据去年特别奖得主、加州大学圣地亚哥分校的研究员Rommie Amaro所带领团队的论文,这项工作“对深层肺部病毒结合,以及对其他空气传播病原体的研究带来了深远的影响”。

Gordon Bell finalist COVID droplet simulation
由Amaro带领的团队模拟了呼吸道液滴中的Delta SARS-CoV-2病毒,其原子数超过10亿。

Amaro表示:“我们展示了人工智能与HPC在多层面上的结合如何实现有效性能的大幅提高,使我们能够用新的方法来理解和审视复杂的生物系统。”

研究人员将NVIDIA GPU用于Summit、戴尔科技为德克萨斯先进计算中心建造的Longhorn超级计算机、以及甲骨文云基础设施(OCI)的商业系统。

该团队总结道:“HPC和云资源可用于大幅缩短解决重大科学工作所需的时间,并能够将研究人员彼此相连,大力推进复杂协作互动的实现。”

药物发现的语言

美国橡树岭国家实验室(ORNL)的COVID特别奖决赛选手将自然语言处理(NLP)应用于筛选新药的化学化合物问题。

他们使用了一个包含96亿分子的数据集(这是迄今为止应用于此项任务的最大的数据集),在两小时内训练了一个能够加速新药发现的BERT NLP模型。此前的最佳成果是耗费四天时间,用一个包含11亿分子的数据集来训练一个模型。

该研究工作在Summit超级计算机上使用了超过24,000个NVIDIA GPU,提供高达603 petaflops的性能。该模型现已训练完成,可在单一GPU上运行,帮助研究人员找到可以抑制COVID和其他疾病的化学化合物。

橡树岭国家实验室计算科学家Jens Glaser表示:“已经有协作方希望将该模型应用于癌症信号通路。”

带领该团队的研究科学家Andrew Blanchard表示:“对于训练数据的规模,我们所触及的还只是冰山一角。我们希望很快能够使用一个包含万亿分子的数据集。”

依靠全栈式解决方案

NVIDIA用于人工智能和加速计算的软件库帮助该团队在短时间内完成了工作,一位评论员称其令人惊叹。

Glaser表示:“我们无需针对GPU的Tensor Core来全面优化我们的工作,因为你不需要专门的代码,而只需要使用标准堆栈。”

他总结了许多决赛选手的感受。“有机会参与有意义的研究,为人们的生活带来潜在的影响,这对一个科学家来说是非常令人欣慰的。”

NVIDIA的Marc Hamilton将简要介绍公司最新的新闻发布、创新和技术,演讲之后还设有NVIDIA专家现场问答环节。