应用 NVIDIA Spectrum-X 网络构建新型主权AI云

作者 英伟达中国

Scaleway是法国的一家拥有高性能基础设施的云服务提供商,创立于1999年,拥有80+云产品及服务,为全球25,000+客户提供云服务,客户包括Mistral AI,Aternos,Hugging Face,Golem.ai等。Scaleway提供一站式的云服务,以开发创新解决方案并帮助用户从零开始构建和扩展AI项目,目前Scaleway正在构建区域AI云,提供GPU基础设施,用于大规模的AI模型训练、推理及部署。

客户挑战

云 AI 工作负载需求正以前所未有的速度增长,同时生成式 AI 应用也在激增。为满足客户部署生成式 AI 应用程序、训练基础 AI 大模型的需求,云服务提供商面临巨大挑战,需要构建AI云,使用加速计算技术和高性能网络来支持AI业务。Scaleway的核心需求包括:

  • 对于分布式AI训练任务,单个任务的训练时间由最慢的计算节点的运行时间决定,这使得尾部延迟至关重要。AI云需要一个高吞吐、低延迟、低抖动、易扩展的高性能网络,来确保GPU间快速、高效的通信,尤其是在大规模部署的场景下。
  • 在多个 AI 任务同时运行的多租户环境中,性能隔离对于保护一个租户的 AI 任务免受其他租户业务的影响是必不可少的。由此提出了对多租户多任务场景下性能隔离的需求。
  • 对于复杂的AI云环境,需要专门适用于AI网络的监控管理工具,提供细粒度的网络可视化功能、同时具备网络监控和故障定位能力。
  • 为实现AI云数据中心的高效、快速部署,需要强大的网络仿真及自动化平台。
  • 随着云上用户、数据、应用的快速增长,网络安全威胁不容忽视,需要提供私有的、安全的零信任基础设施,保障用户的业务安全。 

解决方案

Scaleway采用了NVIDIA的Hopper GPU和Spectrum-X 网络平台应对以上挑战。

Scaleway将HGX Hopper GPU服务器加入其GPU集群阵容中,以覆盖广泛的计算需求,利用GPU的速度和效率加速AI分布式工作负载。

对于Scale-Out AI 网络,Scaleway 采用了基于 BlueField-3 SuperNIC 和 Spectrum SN5600交换机构建的 Spectrum-X网络平台。NVIDIA的Spectrum-X 网络平台是世界上第一个专为 AI 构建的以太网端到端解决方案,与传统以太网相比,其生成式 AI 训练的网络通信效率提高了 1.6 倍。同时Spectrum-X 部署将利用以下网络软件堆栈:

  • NVIDIA Air 用于 AI 网络仿真,NVIDIA Air 是一个云托管的数据中心网络仿真平台,其行为类似于真实世界的生产环境。使用 NVIDIA Air 创建数据中心的数字孪生,可以验证网络配置、网络功能以及自动化部署代码,提升数据中心的部署效率。
  • NetQ 用于AI网络监控,通过高频遥测技术监控AI工作负载,NetQ 提供有关数据中心运行状况的数据和统计信息,关联配置和运行状态,并跟踪状态变化。 基于遥测信息,NetQ提供动态路由监控,RoCE流量计数器,交换机队列直方图等功能,以识别和应对网络微突发、拥塞场景,方便网络故障定位。
  • Cumulus Linux 用于软件驱动的数据中心网络自动化,Cumulus Linux是创新的开放网络操作系统,支持BGP/OSPF路由协议,以太网虚拟专用网络EVPN,虚拟路由和转发。
  • DOCA SDK 和库用于增强 BlueField-3 SuperNIC 性能,DOCA SDK提供行业标准的开放API和软件框架,包括针对RDMA、网络、安全、存储、数据路径加速的SDK,帮助开发者快速创建软件定义、SuperNIC加速的服务。 

使用的NVIDIA产品

  • 硬件: 
  • NVIDIA HGX Hopper服务器
  • NVIDIA Spectrum-4 SN5600 以太网交换机
  • NVIDIA BlueField-3 B3140H SuperNICs
  • 软件:
  • Cumulus Linux 网络操作系统
  • NetQ 监控管理平台
  • NVIDIA Air仿真平台
  • DOCA SDK

实际效果

采用NVIDIA的整体解决方案后,极大地提升了 AI 计算能力,缩短了AI训练时间,同时加速了AI解决方案的开发、部署和上市时间,有效提高了投资回报率。

  • Scaleway 客户可以从几个 GPU 扩展到几千个 GPU,以适应任何 AI 用例
  • Spectrum-X 提供多租户、多任务的 AI 环境所需的高性能和安全性, 借助动态路由、拥塞控制、全局共享缓冲区等多种机制,实现了多任务的性能隔离。
  • NetQ 提供对 AI 网络健康状况的深度可视性,具有RoCE流量计数器、事件和WJH(What Just Happened)警报等丰富的仪表板,实现AI网络可视化、故障排除和验证功能。
  • NVIDIA Air 和 Cumulus Linux 支持 API 原生网络环境,该环境可集成到 DevOps 工具链中,实现了第 0天、第1天 和第 2 天操作的无缝衔接。 

NVIDIA 网络高级副总裁 Gilad Shainer 表示:“生成式 AI 等开创性技术的飞速发展,使每家企业都必须把网络创新放在第一位,从而获得竞争优势。NVIDIA Spectrum-X 是对以太网络的一次革命,让企业能够充分利用其 AI 基础设施的强大力量来改变其运营方式,甚至颠覆他们的行业。”

Scaleway 首席执行官 Damien Lucas 表示:“NVIDIA Spectrum-X 网络技术为我们的 ‘ GPU 集群按需服务’ 提供了更快的网络连接和更高效的 GPU 通信,使我们的客户能够加速开发和部署他们的 AI 解决方案。”