DGX SuperPOD 加速语言模型训练，助力京东探索研究院勇刷 GLUE 榜单

案例简介

本案例中基于京东和 NVIDIA 英伟达联合部署的 DGX SuperPOD 分布式集群，京东探索研究院联合悉尼大学共同开发了织女模型，在 DGX SuperPOD 集群上可高效扩展并快速完成迭代，一举刷新 GLUE 两大挑战性任务榜单。

本案例为 NVIDIA DGX SuperPOD 平台加速大模型训练
本案例主要应用到 DGX A100、Mellanox HDR Infiniband、DGX SuperPOD、和 NVPS 服务
DGX SuperPOD 是一套完整的解决方案

客户简介及客户挑战

京东探索研究院致力于世界前沿技术的研究，其中人工智能方向涵盖 CV、NLP、多模态等。大规模语音模型的研究更是京东探索研究院的重中之重。

以语言模型为例，在过去 2-3 年的时间，语言模型大小每年都在以 1-2 个数量级的速度在增加，如今，则已达到万亿参数的级别。而模型的结构和复杂性日益变化，这对 GPU 集群的架构提出了不一样的要求。

从系统层面看，既有的 GPU 计算集群主要是以支持单机任务、小规模多机任务为主，相较之下，其多机之间网络扩展能力则较弱，而大规模扩展能力也较为受限。因此，在既有的 GPU 集群架构下，较无法满足服务大模型的计算需求。

对于京东探索研究院而言，掌握时效是关键，更快的模型训练意味着能加速迭代、扩展尝试空间、使产品落地更迅速，并提高业务收益。在模型越来越复杂多样、计算需求越来越大、单任务计算规模越来越大的背景下，如何快速新建一个可高效扩展并易用的 GPU 集群，以满足应对上述挑战，是亟待解决的核心问题。

应用方案

基于以上挑战，京东探索研究院选择了采用 NVIDIA DGX SuperPOD 方案来提供支持，并成功给业务侧带来了巨大的提升及解决企业痛点。

1. NVIDIA DGX SuperPOD 是一套完整的解决方案，基于 DGX A100 服务器、HDR Infiniband 200G 网卡和 NVIDIA Quantum QM8790 交换机构建了一套全互联架构，在保证单机计算能力最强的同时，采用计算和存储网络相隔离的方案，最大程度地从网络上保证集群的互联能力。

2. 安装部署方面，NVIDIA 为 DGX SuperPOD 提供专业的部署服务，包括单机系统部署、IB 网络配置、调度安装调试、监控部署、多机环境、基础性能验证等，从基础系统方面，保证了最快交付。

3. 使用方面，NVIDIA 为 DGX SuperPOD 部署了 Slurm 调度系统，并基于 NGC 和客户主要的几类模型，提供了完整的作业脚本，用户只需简单修改几行参数来适配自己的模型，即可一键方便地运行起大规模分布式任务。

4. 性能方面，DGX SuperPOD经过一系列的基础优化（CUDA-X, Magnum IO, NGC）和评测验证（MLPerf），提供最好的 AI 训练性能，在京东探索研究院针对CV、NLP、跨模态等领域设计和研发的数十个模型上，经过双方一系列系统级的合作优化，在 DGX SuperPOD 上达到了比较理想的加速比和扩展性。

使用 DGX SuperPOD 方案，用户只需要关注自己的 AI 模型和算法研究，无需关注硬件和系统层的配置、优化、扩展性等问题，让 AI 研究人员把宝贵的时间和精力专注在前沿的 AI 技术研究上。

使用效果及影响

使用了 DGX SuperPOD 集群方案，极大地加速了用户的 AI 训练和迭代速度，为用户进一步探索出更强大更智能的 AI 模型建立了坚实的基石。

在 DGX SuperPOD 交付给用户仅仅两个多月之后，京东探索研究院就联合悉尼大学在传统 “预训练-微调” 的范式下，利用 DGX SuperPOD 的高效扩展能力，通过研究和工程上的全方位创新，研发出了织女模型，在通用语言理解评估基准（GLUE）的两项挑战性任务，即情感分析任务 SST（The Stanford Sentiment Treebank）和指代消解任务 WNLI （Winograd NLI）中首次超越人类，位居所有参赛机构第一。

“强悍的织女模型在京东探索研究院建设的全国首个基于 DGX SuperPOD 架构的超大规模计算集群 “天琴α” 上完成训练，该集群具有全球领先的大规模分布式并行训练技术，其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”
京东探索研究院