NVIDIA BlueField再创DPU性能世界纪录

DPU(数据处理器)将服务器和存储之间的IOPS性能提升至4100万以上,超过之前世界纪录的四倍。
作者 英伟达中国

数据中心需要超高速存储访问,而目前还没有哪个DPU的速度能比NVIDIA BlueField-2更快。

NVIDIA近期测试显示,两个BlueField-2 DPU(数据处理器)的每秒输入/输出(IOPS)性能达到4150万次,超过任何其他DPU 性能的4倍。

BlueField-2 DPU使用标准网络协议和开源软件打破性能纪录,使用业界常用的存储介质访问方法NVMe over Fabrics(NVMe-oF)以及最通用的互联网协议之一TCP网络,其4KB IOPS性能超过500多万,而512B IOPS则达到700万至2000万以上。

为了加速AI、大数据和高性能计算应用,BlueField还支持流行的RoCE网络传输选项以提供更高的存储性能。

在测试中,initiator端和target端都部署了BlueField,使用不同类型的存储软件库和不同的应用来模拟真实世界的存储配置,都展现出超强的性能。BlueField 在InfiniBand网络上还支持快速存储连接,而InfiniBand是许多HPC和AI应用的首选网络架构。

测试方法

BlueField所达到的4150万IOPS,是之前使用专有存储产品创造的1000万IOPS世界纪录的4倍多。这一性能是通过连接两台快速Hewlett Packard Enterprise Proliant DL380 Gen 10 Plus服务器实现的,其中的一台作为应用服务器(存储initiator),另一台作为存储系统(存储target)。

每台服务器均配备两个英特尔 “Ice Lake” 至强白金2.3GHz 8380处理器,支持160个超线程核以及512GB的DRAM、120MB的L3缓存(每个处理器60MB)和PCIe Gen4总线。

为了加速网络和NVMe-oF,每台服务器均配备了两块NVIDIA BlueField-2 P系列DPU卡,每块卡带有两个100Gb以太网端口,在initiator和target之间有四个网络端口合计400Gb/s线速带宽,并通过NVIDIA LinkX 100GbE Direct-Attach Copper(DAC)无源电缆背对背连接。两台服务器均安装Red Hat Enterprise Linux(RHEL)8.3版本。

对于存储系统软件,测试SPDK和标准upstream Linux内核target,使用默认内核4.18和最新内核之一5.15。对三种不同的存储initiator进行了基准测试,分别为SPDK、标准内核存储initiator和SPDK FIO插件。使用FIO和SPDK生成负载并进行测量,使用4KB和512B这两种常见的中型和小型存储I/O大小来测试。

在网络传输层使用了TCP和RoCE两种协议来测试NVMe-oF存储,每种配置都在全双向网络的条件下以100%读取、100%写入和50/50读取/写入负载模型进行测试。

测试显示BlueField DPU还具有以下性能特点:

  • 用较小的512B I/O大小测试,结果显示IOPS更高,但吞吐量低于端口线速,而用4KB I/O大小测试,结果显示吞吐量很高,而IOPS有所降低。
  • 100%读取和100%写入两种负载的IOPS和吞吐量性能类似,而50/50读/写混合负载由于充分使用网络连接的两个方向产生了更高的性能。
  • 使用SPDK测试,得出的性能高于内核软件性能,但同时带来了更高的服务器CPU利用率,这是因为SPDK在用户空间中运行并不断进行轮询,因此这一情况在预期之内。
  • 由于Linux社区会定期加入存储改进,因此较新的Linux 5.15内核比4.18内核表现更好。

创纪录的DPU存储性能存储安全提供了性能保障

在如今的存储领域,绝大多数云和企业部署都需要快速、分布式、通过以太网或InfiniBand访问的网络闪存。更快的服务器、GPU、网络和存储介质都要求服务器的CPU能够跟上,而最好的方法就是部署具有存储功能的DPU。

BlueField-2 DPU所展现的惊人存储性能,使整个数据中心的应用服务器和存储设备都具有更高的性能和效率。

在快速存储访问的基础上,BlueField还支持对以太网存储流量和存储介质本身的硬件加速加密和解密,这有助于防止数据被盗或外泄。

它能以高达100Gb/s的速度卸载IPsec(线上数据),以及高达200Gb/s的速度卸载256位AES-XTS(静态数据),能够在对手入侵存储网络或者物理存储驱动器被盗、被出售或被不当处置的情况下,减少数据被盗的风险。

客户和领先的安全软件厂商正在使用最近更新的BlueField的NVIDIA DOCA框架,以在DPU上运行分布式防火墙,或提供微分段的安全组等网络安全应用,来进一步提高计算服务器的应用和网络安全,降低服务器存储的不当访问或数据修改风险。

NVIDIA BlueField-2 DPU测试结果细节如下图:

使用NMe-oF on TCP测试NVIDIA BlueField-2 DPU。测试结果是配置了两个BlueField-2 DPU的合并性能。
使用NVMe-oF RoCE测试NVIDIA BlueField-2 DPU。测试结果是配置了两个BlueField-2 DPU的合并性能。

进一步了解NVIDIA网络加速

通过以下链接进一步了解NVIDIA DPU、DOCA、RoCE以及DPU和DOCA如何实现网络加速和零信任安全: