ISC——NVIDIA于今日宣布在NVIDIA HGX™ AI超级计算平台中加入融合了AI与高性能计算的新技术,使越来越多的行业能够更加充分地利用超级计算的力量。
为了加快产业AI和HPC新时代的到来,NVIDIA在HGX平台中加入了三项关键技术:NVIDIA A100 80GB PCIe GPU、NVIDIA NDR 400G InfiniBand网络和NVIDIA Magnum IO GPUDirect Storage软件。三者结合,提供了卓越的性能,以实现产业 HPC 的创新。
目前,已有数十家合作伙伴将NVIDIA HGX平台用于新一代系统和解决方案,其中包括源讯(Atos)、戴尔科技(Dell Technologies,)、慧与(Hewlett Packard Enterprise )、联想(Lenovo)、Microsoft Azure以及NetApp等。
NVIDIA创始人兼首席执行官黄仁勋先生表示:“HPC 革命始于学术界,并迅速扩展到各行各业。产业各项关键趋势正在推动超指数、超摩尔定律的发展速度,使HPC变成各行业都能使用的工具。NVIDIA 的 HGX 平台为研究人员提供了卓越的高性能计算加速能力,以解决行业面临的那些最棘手的问题。”
行业领导者使用 HGX 平台推动创新突破
高科技产业先驱者通用电气正在使用 HGX 平台,将 HPC 创新应用于计算流体动力学模拟,以指导大型燃气轮机和喷气发动机的设计创新。HGX 平台在通用电气的 GENESIS 代码中实现了突破性 CFD 方法的数量级加速,该代码采用大涡模拟来研究涡轮机内部湍流的影响。涡轮机由数百个单独的叶片组成,需要独特的复杂几何形状。
除了推动产业 HPC 转型外,HGX 平台还在加速世界各地的科学 HPC 系统,包括同样在今日宣布的位于爱丁堡大学的新一代超级计算机。
NVIDIA A100 80GB PCIe GPU提升AI和HPC性能
NVIDIA A100 Tensor Core GPU提供了前所未有的HPC加速能力,解决了与产业HPC相关的复杂AI、数据分析、模型训练和计算模拟等挑战。与A100 40GB相比,A100 80GB PCIe GPU的内存带宽增加了25%,达到2TB/s,并且提供80GB的HBM2e高带宽内存。
A100 80GB PCIe的巨大内存容量与高内存带宽,可以保存更多的数据和更大的神经网络,从而最大限度地减少节点间通信和能耗。凭借其更快的内存带宽,研究人员能够获得更高的吞吐量和更快得到结果,实现IT投资价值的最大化。
A100 80GB PCIe GPU基于NVIDIA Ampere架构。该架构内置Multi-Instance GPU(MIG)功能,可为AI推理等小型工作负载提供加速。MIG允许HPC系统缩小计算和内存规模的同时并保证服务质量。除了PCIe之外,还有四卡和八卡的NVIDIA HGX A100配置。
NVIDIA合作伙伴为A100 80GB PCIe GPU提供了广泛的支持,包括源讯(Atos)、思科(Cisco)、戴尔科技(Dell Technologies)、富士通(Fujitsu)、新华三(New H3C Information Technologies)、慧与(Hewlett Packard Enterprise )、浪潮(Inspur Electronic Information)、联想(Lenovo)、Penguin Computing、云达科技(QCT)以及超微(Supermicro)。通过 NVLink 互连的基于 A100 GPU 的 HGX 平台也可通过来自 AWS (Amazon Web Services)、Microsoft Azure 和 Oracle Cloud Infrastructure 的云服务获得。
新一代NDR 400Gb/s InfiniBand交换机系统
NVIDIA InfiniBand是全球唯一具有完全卸载功能的网络计算的互连系统,为那些需要超大数据通道的HPC系统提供超强支持。通过NDR InfiniBand网络可以轻松扩展性能,以应对产业HPC和科学HPC系统面临的大量挑战。基于NVIDIA Quantum™-2单芯片的交换机系统可提供64个NDR 400Gb/s InfiniBand端口(或128个NDR200端口),其端口密度比HDR InfiniBand高出3倍。
NVIDIA Quantum-2模块化交换机提供了可扩展的端口配置选项,最高可提供2048个NDR 400Gb/s InfiniBand端口(或4096个NDR200端口),双向总吞吐量达到1.64 Pb/s,是上一代HDR InfiniBand模块化交换机系列的5倍。相比上一代,这款2048端口交换机的扩展能力增加了6.5倍,采用DragonFly+网络拓扑,只需三个网络Hop就能连接超过一百万个节点。第三代 NVIDIA SHARP 网络计算数据归约技术,比上一代的AI 加速能力提高了 32 倍,可大幅提升高性能产业和科学应用的性能。
此外,NVIDIA UFM® Cyber-AI平台还提供了先进的管理功能,如网络自修复功能等,以及NVIDIA网络计算加速引擎,进一步将数据中心的停机时间降至最低。
基于行业标准的NVIDIA Quantum-2 交换机(预计在年底前可出样品)具有向后和向前的兼容性,可以轻松迁移和扩展现有系统和软件。
包括源讯(Atos)、DDN、戴尔科技(Dell Technologies)、Excelero 、技嘉科技(GIGABYTE)、慧与(HPE)、联想(Lenovo)、Penguin Computing、云达科技(QCT)、超微(Supermicro)、VAST以及 WekaIO 在内的业内领先基础设施制造商等,均计划将Quantum-2 NDR 400Gb/s InfiniBand交换机集成到其企业级产品和HPC产品中。另外,包括Azure在内的云服务供应商们也正在使用InfiniBand技术。
Magnum IO GPUDirect Storage介绍
Magnum IO GPUDirect Storage提供GPU内存和存储之间的直接内存访问,实现了优异的复杂工作负载处理性能。这条直接的通路让应用程序从低I/O延迟中受益,并能够充分利用到网卡的全部带宽,同时减少CPU在通信中的负载,并可以管理逐渐增加的数据消耗所产生的影响。
支持 Magnum IO GPUDirect Storage(现已上市)的行业领导者包括 DDN、戴尔科技(Dell Technologies)、Excelero、慧与(HPE)、IBM Storage、Micron、NetApp、Pavilion、ScaleFlux、VAST 和 WekaIO。 前往https://developer.nvidia.com/gpudirect-storage ,查看存储合作伙伴完整列表。
想要了解 NVIDIA 的 Marc Hamilton 的最新消息和参与 NVIDIA HPC 专家的现场问答,请在北京时间6月29日中午12点30分收听 NVIDIA ISC 2021 特别演讲。