NVIDIA 将大型语言模型扩展到生物学领域

科学家们致力于探索 DNA、蛋白质和其他生命体的“基础构建”，以期获得全新的洞察，而今日在 NVIDIA GTC 上发布的 NVIDIA BioNeMo 框架将为其研究提供加速。

NVIDIA BioNeMo 框架用于训练和部署超算规模的大型生物分子语言模型，帮助科学家更好地了解疾病，并为患者找到治疗方法。该大型语言模型（LLM）框架将支持化学、蛋白质、DNA 和 RNA 数据格式。

NVIDIA BioNeMo 是 NVIDIA Clara Discovery 药物研发框架、应用和 AI 模型集的一部分。

正如 AI 通过 LLM 来学习如何理解人类语言，该框架也在学习生物学和化学语言。NVIDIA BioNeMo 使基于生物分子数据的大规模神经网络训练更为轻松，助力研究人员发现生物序列中的新模式并获得新洞察。研究人员可将这些洞察与生物特性或功能乃至人类健康状况联系起来。

NVIDIA BioNeMo 框架使科学家能够使用更大的数据集来训练大规模语言模型，打造出性能更强大的神经网络。NVIDIA 的 GPU 优化软件中心——NVIDIA NGC 上将提供该框架的抢先体验。

除语言模型框架之外，NVIDIA BioNeMo 还提供一项云 API 服务，该服务将支持越来越多的预训练 AI 模型。

BioNeMo 框架支持更大的模型和更准确的预测

如今，使用自然语言处理模型来处理生物数据的科学家一般会训练相对较小、需要自定义预处理的神经网络。通过 BioNeMo，科学家可将其扩展为具有数十亿参数的 LLM，捕捉分子结构、蛋白质溶解度等信息。

BioNeMo 是 NVIDIA NeMo Megatron 框架的扩展，可实现大规模自监督语言模型的 GPU 加速训练。这一针对特定领域的框架支持以 SMILES 化学结构标记表征的分子数据、以及以 FASTA 氨基酸和核酸序列字符串表征的分子数据。

OpenFold 联盟创始成员、哥伦比亚大学系统生物学系助理教授 Mohammed AlQuraishi 表示： “该框架使整个医疗和生命科学行业的研究人员都能利用快速增长的生物和化学数据集。这样就能更轻松地发现和设计出精准针对疾病分子特征的治疗方法。”

BioNeMo 服务提供用于化学和生物学的 LLM

NVIDIA BioNeMo LLM 服务将为希望快速掌握数字化的生物学和化学领域应用的 LLM 的开发者提供四个预训练语言模型。这些模型针对推理进行了优化，并将通过 NVIDIA DGX Foundry 上运行的云端 API 提供抢先体验。

ESM-1：这一最初由 Meta AI Labs 发布的蛋白质 LLM 能够处理氨基酸序列，最终生成用于预测各种蛋白质特性和功能的表征。它还提高了科学家理解蛋白质结构的能力。
OpenFold：这是由学术界和产业界共同成立的 Openfold 联盟创建的 sota 蛋白质建模工具，它将可以通过 BioNeMo 服务提供其开源 AI 工作流程。
MegaMolBART：这一基于 14 亿分子训练而成的生成式化学模型可用于反应预测、分子优化和新分子的生成。
ProtT5：该模型是在慕尼黑工业大学 RostLab 的带领下合作开发的，NVIDIA 也是该项目的参与者之一。PortT5 将 ESM-1b 等蛋白质 LLM 的功能扩展到序列生成。

未来，使用 BioNeMo LLM 服务的研究人员将能够通过 fine-tuning 以及 p-tuning 等新技术，在几小时内完成 LLM 模型的自定义，提高应用的准确性。相比原来动辄数百万个样本的数据集，p-tuning 训练方法只需要包含几百个样本的数据集。

初创企业、研究人员和制药公司纷纷采用 NVIDIA BioNeMo

生物技术和制药行业的专家正在采用 NVIDIA BioNeMo，为新药研发提供支持。

阿斯利康和 NVIDIA 使用 Cambridge-1 超级计算机开发了 BioNeMo LLM 服务中的 MegaMolBART 模型。这家全球生物制药公司将使用BioNeMo框架，在涵盖小分子和蛋白质的数据集上训练一些全球最大的语言模型。该数据集日后还将涵盖 DNA。
麻省理工学院和哈佛大学旗下博德研究所的研究人员正在与 NVIDIA 一起使用 BioNeMo 框架来开发新一代 DNA 语言模型。这些模型将被整合至 Terra 中。Terra 是一个由博德研究所、微软和 Verily 共同开发的云平台，生物医学研究人员能够通过该平台，安全、大规模地共享、访问和分析数据。这些 AI 模型还将被添加到 BioNeMo 服务集中。
OpenFold 联盟计划使用 BioNeMo 框架来推进其 AI 模型开发工作。这些模型可根据氨基酸序列来预测分子结构，并达到接近实验的准确性。
Peptone 专注于构建固有无序蛋白质（缺乏稳定 3D 结构的蛋白质）的模型。该公司正与NVIDIA 一起使用同样作为 BioNeMo 基础的 NeMo 框架来开发 ESM 模型版本。该项目计划在 NVIDIA 的 Cambridge-1 超级计算机上运行，将推动 Peptone 的新药研发工作。
位于芝加哥的生物技术公司 Evozyne 将工程与深度学习技术相结合，致力于设计能够解决长期治疗和可持续发展难题的新型蛋白质。

Evozyne 联合创始人兼计算主管 Andrew Ferguson 表示： “BioNeMo 框架使我们能够在设计-构建-测试周期内，高效利用 LLM 的力量，基于数据进行蛋白质设计。这将直接影响我们新型功能性蛋白的设计，并将在人类健康和可持续发展方面得以应用。”

NVIDIA 初创加速计划成员、生物技术初创企业 Peptone 的机器学习负责人 Istvan Redl 表示： “随着大型语言模型在蛋白质领域的应用日益广泛，高效训练 LLM 并快速调整模型架构的能力变得非常重要。我们相信 BioNeMo 框架将满足可扩展性和快速实验这两大工程方面的需求。”

即刻注册申请 NVIDIA BioNeMo LLM 服务或 BioNeMo 框架抢先体验。如有意向亲手体验 BioNeMo 中的 MegaMolBART 化学模型，请向 NVIDIA LaunchPad 申请免费 LLM 训练和部署实验室。

GTC 将在线举办至 9 月 22 日（星期四）。欢迎免费注册参会，探索 AI 和医疗领域的最新进展。

观看NVIDIA创始人兼首席执行官黄仁勋的GTC主题演讲：https://www.nvidia.cn/gtc-global/keynote/

主图由 Mahendra awale 提供，通过维基共享资源依据 CC BY-SA 3.0 协议授权