该团队共有 17 位成员,为了改善药物研发,他们基于多个制药公司数据集,利用 NVIDIA GPU 探索 AI 带来的洞察。
一直以来,制药公司始终对其数据进行保密,因为合作可能意味着放弃知识产权和失去竞争优势。
但是,共享数据具有很大的优势:制药公司可使用的数据越多,其研究人员就能够在更短时间内找到和开发前景可期的新药物,最终提高候选药物的成功率并降低治疗成本。
MELLODDY 项目负责人 Hugo Ceulemans 表示,新药从研发到上市平均需要花费 13 年时间和将近 20 亿的资本。MELLODDY 是一个新药研发联盟,旨在消除数据共享与安全性之间的矛盾。
该项目将使用基于云的 NVIDIA GPU 和一种分布式方法(即联合学习),基于来自多家药物公司的数据训练 AI 模型,同时不会侵犯知识产权。
MELLODDY 是 Machine Learning Ledger Orchestration for Drug Discovery(药物研发机器学习帐本编制)的缩写,17 家合作伙伴汇聚一堂,其中包括:Amgen、Bayer、GSK、Janssen Pharmaceutica 和 Novartis 等 10 家领先制药公司;两所顶级欧洲大学,即天主教鲁汶大学 (KU Leuven) 和布达佩斯科技经济大学 (Budapest University of Technology and Economics);四家开拓性初创公司;以及 NVIDIA 的 AI 计算平台。
所有制药合作伙伴均将使用其托管在 Amazon Web Services 上的 NVIDIA V100 Tensor Core GPU。MELLODDY 开发人员将创建一个分布式深度学习模型,该模型可在不同的云集群中训练带标注的数据,从而获得 1000 万种化合物,这是前所未有的规模。
各药物公司将能够完善 AI 模型,专门用于其特定查询领域。作为 MELLODDY 数据安全任务的一部分,每个组织都将对其研究项目进行保密。
杨森制药研发数据科学总监 Ceulemans 表示:“我们希望改善药物研发虚拟化,为患者带来更高效、更安全的疗法。在机器学习和数据科学方面,没有一个行业能够置身事外。”
联合学习:全新领域
MELLODDY 旨在演示联合学习技术如何为药物合作伙伴提供两全其美的办法:利用全球最大的协作式药物化合物数据集进行 AI 训练,且不牺牲数据隐私。
该项目耗资 2000 万美元,计划持续三年,届时联盟会将相关信息公之于众。
联合学习是一种去中心化机器学习方法,训练数据无需汇集到单个聚合服务器中。相反,供机器学习模型进行学习的数据存储在不同地理位置,确保每家药物公司的私有数据集保留在其安全基础设施中。
“数据永远不会处于危险之中。”Owkin(一家开发 MELLODDY 联合学习系统的初创公司)项目协调员 Mathieu Galtier 表示,“数据位于其自身的 GPU 服务器中,而算法从一个服务器传输到另一个服务器,进而达到训练目的。”
制药数据集包含不同化合物及其属性的历史信息。借助多功能 MELLODDY 联合学习模型,每个合作伙伴均将能够创建有关特定药物化合物的匿名查询。查询请求将发送至该组织的每个数据存储库,以识别所有潜在匹配项。
此外,MELLODDY 还将使用区块链账本系统,以便药物合作伙伴可以随时访问数据集并控制其使用。
该联盟旨在改善基于 AI 的药物研发的预测性能,让制药公司互相学习彼此的研究成果,而不向传统竞争对手提供直接访问专有数据集的权利。借助更智能的模型,药物研发所用的时间得以缩短,且成本有所降低。