GTC21 | NVIDIA携手阿斯利康和佛罗里达大学健康学院实现AI药物探索突破

NVIDIA Clara Discovery 旨在为研究人员提供所需工具,以加速药物发现。
作者 英伟达中国

NVIDIA 携手生物制药公司阿斯利康( AstraZeneca )和佛罗里达大学的学术健康中心和佛罗里达大学健康学院,利用突破性的Transformer神经网络开展新的 AI 研究项目。

近些年来新提出的基于Transformer的神经网络架构,让研究人员可以利用自监督训练方法使用批量数据集进行预训练,无需手动标注数据。这些模型可以像学习语言语法一样,学习句法规则来描述化学,并应用于跨研究领域和模式。

NVIDIA 正与阿斯利康合作开发一种基于 Transformer 的生成式 AI 模型,用于药物研发的化学结构生成,这将是首个在 Cambridge-1上运行的项目,并且 Cambridge-1 将会成为英国最强大的超级计算机。这种模型会开源,在 NVIDIA NGC 软件目录中供研究人员和开发者使用,并且可部署在 NVIDIA Clara Discovery 计算药物研发平台上。

另外,佛罗里达大学健康学院正在利用NVIDIA最新的Megatron框架和NGC上的 BioMegatron 预训练模型来开发 GatorTron,这是迄今为止最大的临床语言模型。

新 NGC 应用程序包括 AtacWorks,一种深度学习模型,用于识别可获取的 DNA 区域;以及 MELD,一种从稀疏、模糊或噪声数据中推断生物分子结构的工具。

用于分子分析的 Megatron 模型

由 NVIDIA 和 阿斯利康开发的药物研发模型 MegaMolBART 计划用于反应预测、分子优化和分子生成。此模型基于阿斯利康的 MolBART Transformer 模型,并在 ZINC 化合物数据库上进行训练 —— 利用 NVIDIA 的 Megatron 框架在超算基础设施上进行大规模扩展训练。

大型 ZINC 数据库允许研究人员预训练模型来理解化学结构,无需手动标记数据。凭借对化学的统计理解,该模型将用于完成一系列下游任务,包括预测化学物质之间的相互作用,以及生成新的分子结构。

阿斯利康分子 AI、发现科学和研发部门主管 Ola Engkvist 表示:“正如 AI 语言模型可以学习句子中词语之间的关系一样,我们的目标是通过分子结构数据训练的神经网络将能够学习现实世界分子中原子之间的关系。开发完成后,NLP 模型将成为开源模型,为科学界提供一个加速药物研发的强大工具。”

该模型使用 NVIDIA DGX SuperPOD 训练,帮研究人员发现数据库中不存在但可能是潜在候选药物的分子。称为 in-silico 技术的计算方法,让药物开发人员在进行昂贵且耗时的实验室测试前,可以在广阔的化学空间中搜索更多内容并优化药理特性。

此次合作将使用由 NVIDIA DGX A100 赋能的 Cambridge-1 和 Selene 超级计算机大规模地运行大型工作负载。Cambridge-1 是英国最大的超级计算机,在 Green500 位列第三,在全球性能最强大的系统 TOP500 榜单中排名第 29 位。NVIDIA 的 Selene 超级计算机排在最新的 Green500 榜首,位列 TOP500 第五。

语言模型加速医疗创新

佛罗里达大学健康学院的 GatorTron 模型使用 200 万名患者的超过 5,000 万次互动记录进行训练,这是一个突破,可以帮助确定需要进行临床试验的患者,预测并向健康团队提醒危及生命的情况,并为医生提供临床决策支持。

佛罗里达大学教务长 Joseph Glover 表示:“GatorTron 利用十多年的电子病历来开发最先进的模型。该校最近使用 NVIDIA DGX SuperPOD 提升了超级计算设施。这种规模的工具能帮助医疗健康研究人员获取见解,并根据临床笔记记录判断先前无法获取的医疗趋势。”

除临床医学外,该模型还可以快速创建患者群组进行临床试验,以及研究特定药物、治疗或疫苗的效果,来加速药物研发。

该模型利用 BioMegatron(有史以来训练规模最大的生物医学 Transformer 模型)构建,BioMegatron是 NVIDIA 应用深度学习研究团队使用 PubMed 语料库数据开发的。BioMegatron 可以从NGC上的 Clara NLP获取(Clara NLP是用生物医学和临床文本进行预训练的 NVIDIA Clara Discovery 模型集合)。

佛罗里达大学健康事务部副主席兼佛罗里达健康学院主席 David R.Nelson 博士表示:“GatorTron 项目是一个学术界和业界专家使用前沿人工智能和世界一流计算资源进行协作的杰出范例。我们与 NVIDIA 的合作,对于佛罗里达大学成为人工智能专业知识和开发中心至关重要。”

为药物研发平台赋能

计算药物研发平台也采用了 NVIDIA Clara Discovery 库和 NVIDIA DGX 系统,从而推动药物研究。

·    Schrödinger 化学模拟软件开发领导者,今天宣布与 NVIDIA 建立战略合作伙伴关系,包括科学计算和机器学习研究、NVIDIA 平台上的 Schrödinger 应用程序优化,以及围绕 NVIDIA DGX SuperPOD 的联合解决方案,在数分钟内评估数十亿种潜在药物化合物。

·    生物技术公司 Recursion已安装了 BioHive-1,这是一款基于 NVIDIA DGX SuperPOD 参考架构的超级计算机,截至 1 月,该超级计算机在全球顶尖计算机系统 TOP500 榜单中排名第 58 位。BioHive-1 让 Recursion 能够在一天内运行深度学习项目,而之前使用他们已有的集群完成该项目需要一周时间。

·    Insilico Medicine是 NVIDIA Inception 初创加速计划的合作伙伴,近日宣布发现了一种用于治疗特发性肺纤维化的新临床前候选药物——这是首个针对新疾病靶标进行AI 分子设计,并用于临床试验的示例。由 NVIDIA Tensor Core GPU驱动的系统生成化合物,从目标假设到临床前候选人选择,仅用时不足 18 个月,花费不到 200 万美元。

·    作为 NVIDIA Inception初创加速计划的一员,Vyasa Analytics使用 Clara NLP 和 NVIDIA DGX 系统,让用户获得用于生物医学研究的预训练模型。该公司 GPU 加速的 Vyasa Layar Data Fabric 为多机构癌症研究、临床试验分析和生物医学数据协调解决方案提供动力支持。

欢迎免费注册观看NVIDIA 创始人兼首席执行官黄仁勋的主题演讲。参加本周的  GTC 详细了解 NVIDIA 在医疗健康行业方面的进展,医疗健康分论坛包括 16 场在线研讨会、18 场特别活动以及 100 多场演讲。