NVIDIA 零接触 RoCE 技术助力 Microsoft Azure Stack HCI 实现云经济

NVIDIA 对极其先进的云平台加速 RoCE 技术;零接触 RoCE 技术显著提升新 Azure Stack HCI 的性能。

by Kevin Deierling

在整个数据中心内,新兴的聚合以太网 RDMA (RoCE) 网络技术已成为一种有效的超大规模云策略,可提升基础设施效率并降低成本。

随着 Microsoft 宣布全面推出 Azure Stack HCI 平台(支持 NVIDIA 的零接触 RoCE (ZTR) 技术),企业可以在其数据中心内享受跟全规模 Azure 服务同等级别的性能和效率。

此新平台以 Azure 服务的形式提供,具有超融合基础设施的性价比,并包含原生的 Azure 混合功能。借助 Azure 门户提供的集成管理和操作体验,客户可获得新的安全、性能和混合云增强功能,同时能充分利用他们现有的技能。

NVIDIA  ConnectX 智能网卡和 BlueField 数据处理器 (DPU) 内含突破性 ZTR 技术,消除了企业在内部数据中心部署 RoCE 的障碍。

利用 NVIDIA ZTR ,可以无缝、全面地部署和操作 RoCE 网络传输功能。它消除了对特殊网络配置(例如流量控制或拥塞通知)的需求,因此可以在新环境和现有环境中轻松部署 RoCE ,而且无需对网络进行修改。利用 ZTR , RoCE 网络传输服务能与普通 TCP/IP 环境中的非 RoCE 通信并行运行。

通过与 NVIDIA EGX 认证服务器和 NVIDIA 端到端网络搭配使用, Azure HCI 能让企业享受到多项好处 – 从云到核心数据中心,再到边缘位置的超大规模效率。

RoCE 加速计算密集型工作负载

最初, RoCE 部署在小型数据中心孤岛中,用于加速数据存储平台。但是,数据分析、机器学习和 AI 任务的指数级增长推动了世界各地的组织采用 RoCE 网络,以加速各种计算密集型工作负载。

RoCE 现已部署于全球极其先进的数据中心内,它打破了传统孤岛的限制,并在云和 Web 规模的数据中心全面普及,可加速各种计算和存储工作负载。

Microsoft 在众多云巨头中率先展示了 RoCE 无处不在的思维方式,它在大规模计算集群中部署 RDMA ,以加速软件定义的存储、 AI 和 HPC 客户工作负载。

NVIDIA 是 RDMA/RoCE 网络传输技术的领先提供商之一 ——从高性能计算行业开始,然后将其用途扩展到存储系统、 AI 和数据科学领域。

去年早些时候在 GTC 发布的 ConnectX-6 Lx 智能网卡是 NVIDIA 第 11 代支持 RoCE 的产品,它包含 ConnectX 智能网卡和 BlueField DPU ,可提供超高的性能和易用性。通过加入 NVIDIA Spectrum 以太网交换机和 LinkX 线缆,能创造出端到端、可扩展的网络解决方案,从而提供高带宽、低延迟和简化的管理。

RoCE 已集成到常见 ML/AI 和数据分析框架(包括 TensorFlow 、 Apache Spark 和 PyTorch )的主流代码中。利用这些开源框架对 RoCE 的支持, ML/AI 助力的应用程序从 RDMA 提供的可预测和可扩展的性能中受益匪浅。

要在数据中心规模的计算集群中释放 ML/AI 工作负载的超强性能, GPUDirect RDMA 技术至关重要。网络 ASIC 中的硬件加速引擎能让 GPUDirect RDMA 在节点之间执行高效的零复制数据传输,使 GPU 不断获得执行 AI 计算所需的数据。

用于 ML/AI 多节点训练和边缘推理的 Kubernetes 的兴起也促使 RoCE 越来越多地用于加速计算密集型工作负载。

作为针对 GPU 优化的 NVIDIA 容器化软件中心, NGC 汇集了各种数据科学框架,这些框架提供对 UCX (一种由 RDMA/RoCE 助力的量产级通信框架)的原生支持。 NGC 通过易于部署的框架和应用程序来提高工作效率,让用户可以专注于构建自己的解决方案。

开创性 ZTR 技术使 RoCE 成为易于使用的网络传输技术,可加速各种云或企业计算工作负载。

Azure Stack HCI 借助 NVIDIA ZTR 扩大 Azure 云经济

通过帮助实现高吞吐量、低延迟、节点到节点的连接, NVIDIA ZTR 可加速 Azure Stack HCI 性能,将 Azure 服务引入企业内部环境中。

借助 NVIDIA ZTR ,可确保在各种规模下和物理位置(从分支办事处的小型部署到整个数据中心)都能使 Azure Stack HCI 内部保持一致的应用程序性能。

“Microsoft Azure Stack HCI 基于 Azure 构建,并采用企业级、成本优化的设计,”微软公司 Azure 营销高级主管 Talal Alqinawi 说道:“NVIDIA ConnectX 智能网卡完善了我们的愿景,也将全方位的 Azure 云经济带入企业数据中心,以实现混合云架构。”

开始使用 NVIDIA ZTR 技术和 Microsoft Azure Stack HCI

现在, NVIDIA ZTR 可用于运行最新固件和软件的 ConnectX-4 Lx 、 ConnectX-5 、 ConnectX-6 、 ConnectX-6 Dx 和 ConnectX-6 Lx 智能网卡设备。适用于 BlueField-2 DPU 系列和 EGX 融合加速器的 NVIDIA ZTR 将于今年推出。

NVIDIA 和领先的硬件供应商提供了一系列经过验证的解决方案,它们集 Azure Stack HCI 和 NVIDIA  于一体。这些经过验证的解决方案基于 Microsoft 、 NVIDIA 和硬件合作伙伴支持的标准化参考架构。