NVIDIA 在最新 MLPerf 基准测试中打破 16 项 AI 性能纪录

NVIDIA A100 GPU 和 DGX SuperPOD 系统当选全球 AI 训练领域速度最快的市售商用产品。

by Paresh Kharya

图注:在不到一个月的时间里,内置超过2,000NVIDIA A100 GPUNVIDIA全新DGX SuperPOD(上图为艺术渲染图)就在市售商用产品中脱颖而出,并在各项针对大规模计算性能的MLPerf基准测试中均取得了优异成绩。

根据今日发布的 MLPerf 基准测试结果显示, NVIDIA 在全球市售商用产品中,具备全球最快的 AI 训练性能。

A100 Tensor Core GPU 在加速器的全部八项 MLPerf 基准测试中展现了最快的性能。在实现总体最快的大规模解决方案方面,利用 HDR InfiniBand 实现多个 DGX A100 系统互联的庞大集群–DGX SuperPOD 系统在性能上,也开创了八项全新里程碑。当今,能够借助这些高性能的 AI 技术来更快速、更具成本效益地实现业务转型的客户,将成为最终的获益者。

行业基准测试组织 MLPerf 成立于 2018 年 5 月。此次已是 NVIDIA 在 MLPerf 训练测试中连续第三次展现了最强劲的性能。 2018 年 12 月, NVIDIA 首次在 MLPerf 训练基准测试中创下了六项纪录,次年 7 月 NVIDIA 再次创下八项纪录。

NVIDIA 在客户最关心的市售商用产品类别中创下了纪录。 NVIDIA 在测试中用到的产品基于最新 NVIDIA Ampere 架构以及 Volta 架构。

图注:NVIDIA DGX SuperPOD系统为大规模 AI训练树立全新里程碑。

NVIDIA 是唯一一家在所有测试中均采用市售商用产品的公司。其他大多数提交使用的要么是预览类别preview category,其所用的产品预计需要几个月后才会面市,要么使用的是研究类别的产品,更是较长一段时间内都不会面市。

NVIDIA Ampere 市场采用速度刷新纪录

A100 是首款基于 NVIDIA Ampere 架构的处理器。它不仅打破了性能纪录,其进入市场的速度也比以往任何 NVIDIA GPU 更快。 A100 在发布之初用于 NVIDIA 的第三代 DGX 系统。正式发布仅六周后, A100 就正式登陆了Google Cloud

为助力满足市场的强劲需求, AWS 、百度云、微软 Azure 和腾讯云等全球领先的云提供商,以及 Dell Technologies 、 HPE 、浪潮和超微等数十家主要服务器制造商,均采用了 A100 。

全球用户都在使用 A100 以应对 AI 、数据科学和科学计算中最为复杂的挑战。

其中有些正在赋能新一代的推荐系统或对话式 AI 应用,或进一步探索 COVID-19 的治疗方法,这些都在受益第八代 NVIDIA   GPU 所带来的迄今为止幅度最大的性能提升。

图注:NVIDIA Ampere 架构在市售商用加速器的全部八项测试中名列前茅。

一年半内实现 4 倍性能提升

最新结果表明, NVIDIA 聚焦于不断发展跨处理器、网络、软件和系统的 AI 平台。

例如,测试结果显示,相较于首轮 MLPerf 训练测试中使用的基于 V100 GPU 的系统,如今的 DGX A100 系统能够以相同的吞吐率,实现高达 4 倍的性能提升。同时,得益于最新的软件优化,基于 NVIDIA V100 的 DGX-1 系统亦可实现高达 2 倍的性能提升。

不到两年,整个 AI 平台的创新就取得了如此优异的成绩。如今, NVIDIA A100 GPU 搭配 CUDA-X 库 的软件更新,为通过 Mellanox HDR 200Gb/s InfiniBand 网络构建的扩展集群注入了强劲动力。

HDR InfiniBand 可实现极低的延迟和高数据吞吐量,同时通过可扩展分层聚合和归约协议( SHARP )技术,提供智能深度学习计算加速引擎。

4x improve x1280
图注:NVIDIA 持续通过全新 GPU、软件升级和不断扩展的系统设计,以提升 AI 性能。

NVIDIA 在推荐系统、对话式 AI、强化学习领域大放异彩

MLPerf 基准测试得到了亚马逊、百度、 Facebook 、谷歌、哈佛大学、英特尔、微软和斯坦福大学等机构的支持,并跟随 AI 的发展步伐持续演进。

最新基准测试包含两项新的测试和一项经大幅修订的测试。 NVIDIA 在这三项测试中均取得了优异的成绩。其中,一项基准测试对推荐系统的性能进行了排名。推荐系统是日益普及的一项 AI 任务。另一项基准测试对使用 BERT 的对话式 AI进行了测试。 BERT 是现有最复杂的神经网络模型之一。最后,强化学习测试中使用了 Mini-go 和全尺寸 19×19 围棋棋盘。该测试是本轮最复杂的测试,内容涵盖从游戏到训练的多项操作。

ConvAI RecSys Users FINAL x1280
图注:使用面向对话式 AI 和推荐系统的 NVIDIA AI 解决方案的客户。

各大公司在这些战略性的 AI 应用领域已经受益于 NVIDIA 带来的强大性能。

阿里巴巴在 11 月的“双十一”期间创造了 380 亿美元的销售纪录,其推荐系统使用了 NVIDIA GPU ,使每秒查询量达到了 CPU 的 100 倍以上。而对话式 AI 自身也成为了业界关注的焦点,推动从金融到医疗健康等行业的业务发展。

NVIDIA 不仅能为这些庞大工作的运转提供所需的性能,还使其易于使用。

软件为 AI 的战略发展铺平道路

今年五月, NVIDIA 发布了两个应用框架——用于对话式 AI 的 Jarvis 和用于推荐系统的 Merlin。 Merlin 中包含了助力最新 MLPerf 基准测试结果的 HugeCTR 训练框架。

这些应用框架仅仅是一部分。在不断壮大的应用框架中,还有面向汽车行业市场的NVIDIA DRIVE,面向医疗健康市场的Clara,面向机器人技术市场的Isaac,以及面向零售/智能城市市场的Metropolis

SDKs x1280
图注:NVIDIA 应用框架简化了企业级 AI 的开发和部署。

DGX SuperPOD 架构兼顾速度与规模

NVIDIA 在 Selene 上运行了系统的 MLPerf 测试, Selene 是基于 DGX SuperPOD 的内部集群。 DGX SuperPOD 是针对大规模 GPU 集群的公共参考架构,可在数周内完成部署。该架构基于 DGX POD 的设计原理和最佳实践进行了扩展,致力于解决当今 AI 领域最具挑战性的难题。

Selene 最近在 TOP500 榜单中首次亮相,凭借百亿亿次( exaflops )级别的 AI 性能,成为美国最快的工业系统。它也是 Green500 榜单中全球第二大节能系统。

客户已经采用这些参考架构来构建自身的 DGX POD 和 DGX SuperPOD 。其中包括美国最快的学术领域 AI 超级计算机 HiPerGator ,该超级计算机也将成为佛罗里达大学跨学科 AI 创新的基石。

同时,全球领先的超算中心 Argonne 国家实验室正在使用 DGX A100 ,寻找抗击 COVID-19 疫情的方法。 Argonne 国家实验室是六个首批采用 A100 GPU 的高性能计算中心中的先行者之一。

DGX POD Users x1280
图注:NVIDIA DGX POD的广泛采用。

DGX SuperPOD 现已助力汽车领域的大陆集团、航空航天领域的 Lockheed Martin 和云计算服务领域的微软等公司取得了良好的业务成果。

这些系统的顺利运转,部分得益于其广泛的生态系统对于 NVIDIA GPU 和 DGX 支持。

NVIDIA 生态系统在 MLPerf 基准测试中展示傲人成绩

在提交结果的九家公司中,除 NVIDIA 外还有六家公司提交了基于 NVIDIA GPU 的测试结果,其中包括三家云服务提供商(阿里云、谷歌云和腾讯云)和三家服务器制造商(戴尔、富士通和浪潮),凸显了 NVIDIA 生态系统的优势。

NVIDIA AI Ecosystem x1000
图注:采用 NVIDIA AI平台参与基准测试的合作伙伴。

这些合作伙伴大多采用了 NVIDIA 软件中心 NGC 中的容器,以及用于参赛的公开框架。

包括这些 MLPerf 合作伙伴在内的近二十家云服务提供商和 OEM 组成的生态系统,已采用或计划采用 NVIDIA A100 GPU 来打造在线实例、服务器和 PCIe 卡。

经测试验证的软件现可从 NGC 获取

现在,大多数 NVIDIA 及其合作伙伴在最新 MLPerf 基准测试中使用的软件,已可通过 NGC 获取。

NGC 中包括多个 GPU 优化的容器、软件脚本、预训练模型和 SDK ,可助力数据科学家和开发者在 TensorFlow 和 PyTorch 等常用框架上加速 AI 工作流程。

各机构都在大力采用容器,以加速实现业务成果。毕竟,业务成果才是最终的“基准”。

关于 NVIDIA

NVIDIA(纳斯达克股票代码: NVDA )在 1999 年发明的 GPU 激发了 PC 游戏市场的增长,重新定义了现代计算机显卡,并且对并行计算进行了革新。最近,通过将 GPU 作为可以感知和理解世界的计算机、机器人乃至自动驾驶汽车的大脑, GPU 深度学习再度点燃了全新的计算时代——现代人工智能。更多信息,请访问 http://nvidianews.nvidia.com/

# # #