科研机构借助 NVIDIA AI 平台确保医疗数据安全

三井物产株式会社子公司借助 NVIDIA AI 平台实现数据集的安全共享并使用在这些数据集上建立的强大模型加速药物研发。
作者 Laura Martinez

三井物产株式会社(Mitsui & Co)成立于 77 年前。公司通过使用生成式 AI、机密计算等新技术构建业务和生态系统来保持活力。

这家总部位于东京、拥有 16 个部门的企业集团进行了许多方面的数字化转型,包括自动驾驶卡车服务、地理空间分析平台等。三井物产甚至还与一家处于量子计算前沿的合作伙伴开展合作。

在医疗领域,一种新药的上市可能需要花费十多亿美元且历时十年之久。于是,三井物产成立了一家新的子公司 Xeureka,旨在加快医疗领域的研发速度。

三井物产数字化转型部门项目经理 Katsuya Ito 表示:“我们使用 AI 和机密计算等新数字技术创建业务。我们的大部分工作都是与科技公司合作完成的,在这个项目中的合作伙伴是 NVIDIA 和 Fortanix(一家位于旧金山的安全软件公司)。”

获取大数据

Xeureka 成立仅三年,但已经完成了一项概念验证,解决了药物研发的最大问题之一——获取足够的数据。

为了加快药物研发速度,需要有强大的 AI 模型,而建立模型所需的数据集规模超过了大多数制药公司手头上的数据集。由于数据通常包含患者的私人信息以及制药公司专有的化学配方,因此不久前,公司之间共享数据还是一件不可想象的事情。

机密计算在 GPU 或 CPU 的一个受保护的部分中处理数据。这个部分就像一个黑匣子,里面记录着企业最重要的机密。

为确保自己的数据始终处于保密状态,银行、政府机构甚至广告主都在使用这项技术。多家全球数一数二的大公司还组成了一个联盟支持该技术。

隐私概念验证

为了验证机密计算是否能让客户安全地共享数据,Xeureka 创建了两家假想公司,每家公司都有上千种候选药物。先将两家公司的数据集分别用于训练预测化学品毒性水平的 AI 模型,然后将这些数据合并,训练出一个类似但更大的 AI 模型。

Xeureka 在 NVIDIA GPU 上使用 Fortanix 的安全管理软件进行了测试。Fortanix 是首批支持机密计算的初创公司之一。

NVIDIA GPU 支持可信执行环境,可通过基于硬件的引擎在不影响性能的情况下,确保并验证机密工作负载在 GPU 上使用时受到保护。Fortanix 软件可管理数据共享、加密密钥和整个工作流。

准确率最高提升 74%

所得到的结果十分惊人。由于使用了组合数据集,大模型的预测准确率提高了 65-74%。

Ito 表示,使用一家公司的数据创建的模型具有不稳定性和偏差问题,而大模型则不存在这些问题。

Xeureka 首席技术官 Hiroki Makiguchi 在 Fortanix 的一份新闻稿中表示:“NVIDIA 和 Fortanix 的机密计算从根本上缓解了隐私和安全问题,同时还提高了模型的准确性,对整个行业来说是一次双赢。”

AI 超级计算生态系统

如今 Xeureka 正与 GPU 加速 AI 超级计算机 Tokyo-1 背后的社区合作,探索如何将这项技术广泛应用于药物研发。Tokyo-1 于今年 2 月发布,旨在提高日本和其他国家制药公司的效率。

最初的项目可能包括合作预测蛋白质结构、筛选配体-碱基对、使用可信服务加速分子动力学仿真等。Tokyo-1 用户可通过 NVIDIA BioNeMo 药物研发微服务和框架,充分利用化学、蛋白质、DNA 和 RNA 数据格式的大语言模型。

这是三井物产整个战略发展计划的一环。该计划将通过开发医疗软件和服务,推动日本价值 1000 亿美元制药业的发展。日本是继美国和中国之后的世界第三大制药国。

Xeureka 提供的服务将包括使用 AI 快速筛选数十亿种候选药物、预测有用分子与蛋白质的结合方式、仿真详细的化学行为等。

欲了解更多信息,请阅读有关 NVIDIA 机密计算 NVIDIA BioNeMo AI 药物研发平台的内容。