医疗中心利用 AI 和联邦学习实现更好的癌症检测

由美国顶级医疗中心和研究机构的专家组成了一个专家委员会，该委员会正在使用 NVIDIA 支持的联邦学习来评估联邦学习和 AI 辅助注释对训练 AI 肿瘤分割模型的影响。

联邦学习是一种技术，能够在不降低数据安全性或隐私性的前提下，利用来自不同数据源的数据，开发更准确、更通用的 AI 模型。借助这项技术，多家企业可在敏感数据不离开各自服务器的情况下，协作开发 AI 模型。

威斯康星大学麦迪逊分校放射学副教授 John Garrett 表示：“由于隐私和数据管理方面的限制，在站点间共享数据并将数据汇总到一处正变得日益复杂，而影像 AI 的发展速度比研究机构签订数据共享合约的速度还要快。实际上，跟上这一趋势的唯一办法是采用联邦学习，在多个站点同时构建和测试模型。联邦学习已成为一个不可或缺的工具。”

Garrett 是美国医学影像信息学会（SIIM）机器学习工具与研究小组委员会成员。该委员会由临床医生、研究人员和工程师组成，旨在推动 AI 在医学影像中的发展与应用。NVIDIA 是 SIIM 成员，自 2019 年以来一直与该委员会就联邦学习进行合作。

委员会主席 Khaled Younis 表示：“联邦学习技术在符合 GDPR、HIPAA 等隐私法规要求的前提下，能够增强数据的隐私性和安全性。此外，该技术还提高了模型的准确性和泛化程度。”

为了支持他们的最新项目，该研究小组（包括来自凯斯西储大学、乔治城大学、梅奥诊所、加州大学圣地亚哥分校、佛罗里达大学和范德堡大学的合作者）选择使用 NVIDIA FLARE（NVFlare）。该开源框架包含强大的安全功能、先进的隐私保护技术和一个灵活的系统架构。

通过 NVIDIA 学术资助计划，该委员会获得了四个 NVIDIA RTX A5000 GPU，这些 GPU 被分配给参与的研究机构，用于建立联邦学习工作站。其他合作者也在云端和本地服务器中使用了 NVIDIA GPU，展现了 NVFLare 的灵活性。

破解联邦学习的密码

参与该项目的六个医疗中心分别提供了约 50 项医学影像研究的数据，研究的重点是肾细胞癌（肾癌的一种）。

范德堡大学计算机科学助理教授兼生物医学数据表征与学习实验室主任霍元恺（Yuankai Huo）表示：“联邦学习的理念是在训练过程中交换模型，而不是交换数据。”

在联邦学习框架中，初始全局模型向客户服务器发送模型参数。各个服务器使用这些参数来建立模型的本地版本，该版本在企业组织的专有数据上训练而成。然后，各个本地模型的更新参数被发送回全局模型，并在全局模型中汇总，生成一个新的全局模型。如此循环往复，直到模型的预测结果不再随着每一轮训练而提高。

为了优化训练速度、准确性以及将模型训练到目标精度水平所需的影像研究数量，研究小组尝试了各种模型架构和超参数。

使用 NVIDIA MONAI 进行 AI 辅助注释

在项目第一阶段，模型使用的训练数据均由人工标记。在下一阶段，研究小组将使用 NVIDIA MONAI 进行 AI 辅助注释，然后评估在 AI 帮助下分割的训练数据与传统注释方法相比，模型性能有何不同。

Garrett 表示：“在通常情况下，联邦学习活动最大的难点在于不同站点的数据并不完全统一。大家使用的影像设备不同，协议不同，对数据的标记也不同。我们的目标是通过使用 MONAI 对联邦学习模型进行二次训练，了解这是否能够提高整体注释的准确性。”

研究小组正在使用 MONAI Label，该图像标记工具可用于开发定制 AI 注释应用，以便减少创建新数据集所需的时间和精力。专家将先对 AI 生成的分割进行验证和完善，然后再将其用于模型训练。

人工注释和 AI 辅助注释阶段的数据均托管在 Flywheel 上。这个领先的医学影像数据和 AI 平台已将 NVIDIA MONAI 集成到其产品中。

为了推动未来的工作，研究小组计划在项目完成后公布他们的方法、带注释的数据集和预训练模型。

Garrett 表示：“我们不仅要探索这些工具，而且还要公布我们的研究成果，让医疗领域的其他人也能够学习和使用这些工具。”

申请 NVIDIA 学术资助

NVIDIA 学术资助计划通过为研究人员提供世界级的计算入口和资源，来推动学术研究。现面向经认可的学术机构的全职教职员工开放申请，这些教职员工需使用 NVIDIA 技术来加速仿真与建模、生成式 AI 以及大语言模型等项目。

未来的申请周期将重点关注数据科学、图形和视觉以及边缘 AI（包括联邦学习）领域的项目。