什么是 SuperNIC?

SuperNIC 是面向 AI 云数据中心的一种网络加速器,可在 GPU 服务器之间提供可靠、无缝的连接。
by 英伟达中国

生成式 AI 是快速变化的数字领域的新转折。在此领域的一个突破性创新技术是一个新术语:SuperNIC.

什么是 SuperNIC?

SuperNIC 是一类新型网络加速器,旨在为基于以太网的AI云上运行的超大规模 AI 工作负载提供强效助力。它为 GPU 到 GPU 通信提供快速的网络连接,使用基于以太网的远程直接内存访问  (RoCE) 技术实现 400Gb/s 的速度。

SuperNIC 结合了以下独特属性:

  • 高速数据包重排序可确保数据包的接收和处理顺序与源端发送的顺序相同。这可保持数据流的顺序完整性。
  • 使用实时遥测数据和网络感知算法进行高级拥塞控制,以管理和预防 AI 网络中的拥塞。
  • 输入/输出 (I/O) 路径上的可编程计算,可实现 AI 云数据中心网络基础设施的自定义和可扩展性。
  • 节能高效的半高设计,可在有限的功率预算范围内高效适应 AI 工作负载。
  • 全栈 AI 优化,包括计算、网络、存储、系统软件、通信库和应用框架。

NVIDIA 最近推出了全球首款专为 AI 计算定制的 SuperNIC,基于BlueField-3 网络平台.它是 NVIDIA Spectrum-X 平台的一部分,与 Spectrum-4 以太网交换机系统无缝集成。

NVIDIA BlueField-3 SuperNIC 和 Spectrum-4 交换机系统共同构成专为优化 AI 工作负载而设计的加速计算架构。Spectrum-X 始终如一地提供极高网络效率水平,远超传统的以太网环境。

NVIDIA DPU 和网卡产品副总裁 Yael Shenhav 表示:“AI 正在推动新一波的技术创新,BlueField-3 SuperNIC 是其中至关重要的一个齿轮。SuperNIC 可确保您的 AI 工作负载得到高效和快速的执行,必将成为实现 AI 计算未来的基础组件。”

不断发展的 AI 和网络格局

AI 领域正在经历一场地震级转变,这要归功于生成式 AI大语言模型,这些强大的技术释放了新的可能性,使计算机能够处理新任务。

AI 的成功很大程度上依赖于 GPU 加速计算来处理海量数据、训练大型 AI 模型并实现实时推理。这种新的计算能力开辟了新的可能性,但也对以太网云网络提出了挑战。

传统以太网是互联网基础设施的基础技术,旨在提供广泛的兼容性和连接松耦合的应用程序。它的设计并不是为了满足现代 AI 工作负载的苛刻计算需求,这些工作负载涉及紧耦合的并行处理、快速数据传输和独特的通信模式,所有这些都需要优化的网络连接。

传统网络接口卡 (NIC) 为通用计算、通用数据传输和互操作性而设计,并没有为 AI 工作负载计算强度带来的独特挑战进行优化设计。

标准网卡(NIC)缺乏必要的特性和功能来实现高效的数据传输、低延迟和对 AI 任务至关重要的确定性能。而 SuperNIC 则专为现代 AI 工作负载而构建。

AI 计算环境中的 SuperNIC 优势

数据处理器(DPU)提供丰富的高级功能,可提供高吞吐量、低延迟的网络连接等。自 2020 年推出以来,DPU 在云计算领域越来越受欢迎,主要是因为其能够卸载、加速和隔离数据中心基础设施处理。

尽管 DPU 和 SuperNIC 具有一系列相同的特性和功能,但 SuperNIC 针对 AI 加速网络进行了独特的优化。下图显示了它们的对比情况:

分布式 AI 训练和推理通信流很大程度上取决于网络带宽的可用性。SuperNIC 以其独特的设计而引人注目,其扩展比 DPU 更有效,每个 GPU 可提供惊人的 400Gb/s 网络带宽。

系统内 GPU 与 SuperNIC 的 1:1 配比可以显著提高 AI 工作负载效率,从而提高企业的生产力和卓越成果。

SuperNIC 的唯一目的是加速 AI 云计算的网络。因此,它比 DPU 消耗更少的计算能力,而 DPU 需要大量计算资源来卸载主机 CPU 中的应用程序。

计算需求的降低也转化为功耗的降低,这在包含多达 8 个 SuperNIC 的系统中尤为重要。

SuperNIC 的其他显著特性包括其专用的 AI 网络功能。当与为 AI 优化的 NVIDIA Spectrum-4 交换机紧密集成时,它提供了自适应路由、乱序数据包处理和优化的拥塞控制。这些高级功能有助于加速以太网 AI 云环境。

革新 AI 云计算

NVIDIA BlueField-3 SuperNIC 具有多项优势,是 AI 基础设施就绪的关键:

  • AI 工作负载峰值效率:BlueField-3 SuperNIC 专为网络密集型大规模并行计算而构建,是 AI 工作负载的理想选择。它可确保 AI 任务高效运行,消除通信瓶颈。
  • 一致且可预测的性能:在同时处理大量任务的多租户数据中心,BlueField-3 SuperNIC 可确保每个作业和租户的性能都是隔离的、可预测的,并且不受其他网络活动的影响。
  • 安全的多租户云基础设施:安全是重中之重,尤其是在处理敏感信息的数据中心。BlueField-3 SuperNIC 保持极高的安全级别,使多个租户能够共存,同时保持数据和处理隔离。
  • 可扩展的网络基础设施:BlueField-3 SuperNIC 的范围并不受限,它高度灵活,可适应各种其他网络基础设施需求。
  • 广泛的服务器制造商支持:BlueField-3 SuperNIC 无缝适用于大多数企业级服务器,无需额外供电,为数据中心实现高效节能。

阅读白皮书,详细了解 NVIDIA BlueField-3 SuperNIC,包括它们如何跨 NVIDIA 数据中心平台进行集成:新一代网络,迎接新一波 AI 浪潮