腾讯互娱内容生态部与NVIDIA 深度合作,打造低延迟超大分辨率渲染平台

作者 英伟达中国

简介 

  • 腾讯互娱内容生态部(Content Development Department,以下简称CDD)正在构建以NVIDIA RTX A6000 + NVIDIA BlueField-2 DPU + Spectrum-3 交换机等先进技术为基础的新一代超大分辨率渲染平台。双方团队沿着视频流超低延迟传输这一方向进行持续的技术攻关,将NVIDIA Rivermax整合到生产软件环境中,进一步降低了超大分辨率渲染平台的交互延迟。 
  • 本案例主要应用了 NVIDIA Rivermax,NVIDIA RTX A6000,NVIDIA BlueField-2 DPU,NVIDIA Spectrum-3 交换机。 

Case Introduction 

  • Tencent IEG Content Development Department (CDD) is building a next-generation ultra-large resolution rendering platform based on advanced technologies such as NVIDIA RTX A6000 + NVIDIA BlueField-2 DPUs + Spectrum-3 switches. The joint team continues to work on technologies in the direction of ultra-low latency video stream transmission, further reducing the interaction latency of ultra-large resolution rendering platforms by integrating NVIDIA Rivermax into the production software environment.  
  • This case involves NVIDIA Rivermax, NVIDIA RTX A6000, NVIDIA BlueField-2 DPUs, and NVIDIA Spectrum-3 switches. 

客户简介及应用背景 

作为国内游戏大厂,腾讯早早布局虚拟制片业务。2020年底,腾讯游戏成立内容生态部门(Content Development Department,以下简称CDD),旗下拥有虚拟人、虚拟制片等多个业务线。2021年11月CDD在深圳坪山建成了总占地3000平米的LED虚拟影棚。影棚配置有40m*6m的240°弧形LED立面屏幕,并配有可上下移动的100多平方米的天幕。LED点间距2.3,支持高速拍摄。 

为了在硬件和软件上持续保持领先, CDD与业内领先企业频繁交流,不断改进自研软件以提升虚拟拍摄影棚的制作体验。 

客户挑战 

在虚拟影棚中,LED立面屏幕被分割为多个显示区域,每个显示区域由不同的工作站驱动,其呈现的内容则由其搭载的GPU渲染完成。 

在实时拍摄过程中,需要LED光照、实时摄像机追踪和实时渲染投屏三者的结合,实现前台演员和虚拟背景之间的完美整合。这种拍摄方案消除了对绿幕合成的需求,让摄像机直接拍摄最终成像。 

而所有需要在大型LED立面屏幕上显示实时渲染内容的行业都面临着一个普遍挑战,即每个渲染节点其实是一个独立运行工作站,在实际拍摄制片过程中,不仅需要消耗大量的计算资源用于渲染高分辨率高帧率的高品质实时内容,还需要同步所有渲染节点间的技术参数,同时推进所有显示媒介的呈现内容。目前鲜有人在这一领域取得突破,原因可以归纳为以下几个方面: 

  • 每台工作站需要独立渲染特定显示区域的内容,在保证高标准画面渲染细节的同时还需要维持面板刷新一致,对GPU性能提出了极高要求。 
  • 节点间存在通讯障碍,普通同步方式不能保证所有节点的帧同步,一旦出现不同步就会造成画面撕裂影响观看体验。 
  • 节点间参数同步和数据传输占用了大量的网络带宽和CPU资源,进一步造成节点间时间同步的不可预测。 

由于上述瓶颈导致渲染平台整体无法进一步提升成片的帧率和分辨率,无法进一步满足人们对于高帧率渲染实时内容的需求。 

应用方案 

客户的超大分辨率渲染平台通过集成NVIDIA Rivermax整体方案,解决了这些难题。完成集成后的系统架构如下图所示: 

图1. 系统架构图

新的平台由NVIDIA RTX A6000承担分布式实时渲染任务。RTX A6000拥有48GB显存,可以将拍摄场景需要的模型和纹理数据全部加载到显存中,在拍摄过程中按需调用。渲染节点支持多 GPU 进行视口渲染,此模式支持创作者指定一个 GPU 渲染特定视口,并通过 NVLink将渲染结果直接复制到另一个 GPU上显示输出。而多个显示区域则通过NVIDIA Quadro Sync II同步vsync信号,并结合NVIDIA专业显卡提供的NVAPI swapgroup/barrier技术将渲染结果完美的拼合在一起。 

此外整个渲染平台通过添加NVIDIA BlueField-2 DPU和NVIDIA Spectrum-3交换机,具备了运行NVIDIA Rivermax整体方案的硬件能力。 

NVIDIA Rivermax 提供了高性能的流媒体传输服务,这种服务在Windows平台上实现了GPU Direct P2P支持,消除了额外的GPU显存到系统内存的拷贝,降低了操作系统层面的延迟,同时也降低了CPU资源的占用,从而让整个渲染平台的运行更为可靠。启用NVIDIA Rivermax后,单颗CPU 核心可以轻松收发100Gbps的媒体流。 

图2. 单颗CPU核心收发100Gbps媒体流

而且整个平台也具备了部署DOCA Firefly的条件。DOCA Firefly是NVIDIA提供的基于硬件的精确时间同步服务。在NVIDIA BlueField-2 DPU上部署DOCA Firefly可以实现纳秒级别的时间同步精度,其典型值如下表所示: 

  BlueField-2 
Rx timestamp resolution  4 nsec 
Rx timestamp accuracy  8 nsec 
Rx timestamps/sec 250M (FWS) 
Tx timestamp resolution  4 nsec 
Tx timestamp accuracy  22 nsec 
Tx timestamps/sec 2M/sec 
PPS / Video Genlock 1HZ – 2Khz In/Out 

使用效果及影响 

腾讯CDD综合NVIDIA提供的各项产品,使用NVIDIA RTX A6000实时渲染,使用NVIDIA Rivermax在GPU显存间直接传输数据,使用NVIDIA BlueField-2 DPU 部署精确时间服务DOCA Firefly来同步所有渲染节点的系统时钟,使用NVIDIA Spectrum-3 交换机复制GPU显存数据并承载时钟网络,通过这一系列改进措施,最终实现了在LED立面屏幕上以超低延迟呈现数字流资产的能力。