用于基因组的生成式 AI:使用大语言模型预测新冠病毒变种特征

全新演示可以使用户探索基因组规模语言模型的可视化。该模型由美国阿贡国家实验室、NVIDIA 及其他合作者共同开发。
作者 英伟达中国

一个广受赞誉的基因组数据大语言模型已经证明其生成基因序列的能力,它能够生成与 SARS-CoV-2 病毒(新型冠状病毒)的现实变种非常相似的基因序列。

该模型名为 GenSLMs,在去年因基于高性能计算的新冠病毒研究而赢得戈登·贝尔特别奖。它在核苷酸序列数据集(DNA 和 RNA 的组成部分)上训练而成,由来自美国阿贡国家实验室、NVIDIA、芝加哥大学以及其他学术和商业合作机构的研究人员共同开发。

当研究人员回看 GenSLMs 生成的核苷酸序列时,他们发现AI生成的序列的特定特征与今年在现实世界中流行的 Eris 和 Pirola 新冠病毒亚变种非常吻合,尽管该 AI 只在疫情第一年的新冠病毒基因组上训练过。

该项目的首席研究员、美国阿贡国家实验室计算生物学家 Arvind Ramanathan 表示:“我们模型的生成过程极其简单,没有任何关于新冠病毒新变种应该是什么样子的具体信息或约束条件。尽管在训练过程中只看到了 Alpha 和 Beta 变种,但该 AI 还是能够预测最近新冠病毒毒株中出现的基因突变类型,这充分证明了它的能力。”

除了生成自己的序列外,GenSLMs 还能区分变种,进而对不同的新冠病毒基因组序列进行分类和聚类。在新的演示中,用户可以探索GenSLMs 对新冠病毒基因组中各种蛋白质进化模式的分析的可视化。该演示可在 NVIDIA 加速软件中心 NGC 上观看。

读懂字里行间,揭示进化模式  

GenSLMs 的一个关键特征是能够解读长串核苷酸(在 DNA 中以字母 A、T、G 和 C 的序列表示,在 RNA 中以 A、U、G 和 C 表示),其解读方式与经过英语文本训练的 LLM 解读句子的方式相同。这种能力使该模型能够理解基因组中不同区域之间的关系,在冠状病毒中,每个基因组由大约 30,000 个核苷酸组成。

在该 NGC 演示中,用户可以选择 8 种不同的新冠病毒变种,以了解该 AI 模型如何追踪病毒基因组中各种蛋白质的突变。该可视化图像描绘了病毒蛋白质之间的进化耦合,重点显示了该基因组中有哪些片段可能出现在特定变种中。

Ramanathan 表示:“了解基因组的不同部分是如何共同进化的,可以让我们了解该病毒是如何发展出新的易感性或抗体形式的。观察该模型对变种中哪些突变的理解特别强,可以帮助科学家完成下游任务,如确定特定毒株如何避开人类的免疫系统等。” 

GenSLMs 在 1.1 亿多个原核生物基因组序列上进行了训练,并使用了细菌和病毒生物信息学资源中心(Bacterial and Viral Bioinformatics Resource Center)的开源数据,在包含 150 万个新冠病毒序列的全球数据集上进行了微调。今后,该模型可在其他病毒或细菌的基因组上进行微调,从而实现新的研究应用。

GenSLMs 研究团队在去年的 SC22 上获得了戈登·贝尔特别奖。在本周于丹佛举行的 SC23 上,NVIDIA 将展示加速计算领域的一系列全新突破性成果。查看完整日程表

NVIDIA 研究部门由全球数百名科学家和工程师组成,其团队专注于 AI、计算机图形学、计算机视觉、自动驾驶、机器人学等领域的研究。进一步了解 NVIDIA 研究部门并订阅 NVIDIA 医疗新闻