TensorRT极致推理加速,望尘科技打造新一代实时AI体育全场景多维重构引擎

by 英伟达中国

深圳望尘科技公司拥有国内领先的 AI 视觉算法团队和实时渲染引擎,十年来一直专注于体育游戏与其相关 AI 视觉技术的研发,积累了巨量的球员角色数据库,不仅有所有在国际足联注册的 2 万名职业球员精确到厘米的球员体型、骨长、BMI、体脂肌肉比等数据,还有数千名顶级球员高精度的 3D 模型,几乎全球所有主要球场的高精度模型。 

基于这些高质量结构化的数据,Arena4D 可将捕捉结果在实时渲染引擎中以接近照片级真实的质量渲染,用完全自由的镜头特效和运镜方式实现前所未有的震撼体验。 

Arena4D 空间追踪识别及数据处理面临算力挑战 

球员和球的运动速度快,姿态变化大,且衣服外貌相似性较大,难以使用行业通用的 MOT 算法进行高质量的追踪和姿态识别。 

即使是 4k 图像,球员和球在图像中太小,追踪困难。 

多台高清摄像头每帧图像需上传到显卡进行实时转码、降噪等前处理工作,数据吞吐量较大。 

基于神经网络的计算流水线,需要实时进行多个视角、多个运动员的追踪、识别、姿态估计与降噪计算。 

在多个 AI 模型级联计算流水线中,每个 AI 模型之间的数据处理与拷贝占用了大量的时间。 

NVIDIA AI 计算平台为 Arena4D 实现全流程 GPU 加速提供算力支持 

基于以上挑战,望尘科技选择了采用 NVIDIA AI 计算平台来提供支持,使用后给研发和项目落地带来了巨大的支持和提升。 

1、基于 GalaSports 体育游戏渲染生成巨量的合成数据,在 NVIDIA 数据中心 GPU 上进行加速训练。首先在有 GT 的合成数据上训练基础网络,然后再在手工标注的真实数据上进行 finetune。 

2、Arena4D 采用了 NVIDIA TensorRT 推理加速引擎,TensorRT 首先对神经网络进行量化处理,然后再优化、合并算子,最后经过 Batch 化,推理处理速度较原来提升了 4-12 倍,能高效地处理多路摄像头 4k 高清数据,实时提取球员的 3D Pose 和外貌特征并进行匹配计算。 

3、将原有基于 CPU 运行的数据拷贝,图像格式转换,图像 crop/resize 等耗时较多的操作流水线,利用 CUDA 进行实现,完全切换到 GPU 处理,比起 CPU 实现的方案,加速 50~100 倍。 

4、针对体育场景中运动员速度快、运动幅度大、图像中尺寸小的特点,改进了网络结构和算子,使其适合体育场这种稀疏变化,追踪角色小的场景;提升了 MOT 算法,通过多个视图的 fusion 网络对 2D 追踪结果进行 finetune,实现多视图在 3D 空间的追踪。 

图1:整体流程 

图片来源及所属:Galasports 望尘科技 

5、针对神经网络流水线的计算延迟问题,首先根据体育比赛的使用场景与相机视角对模型结构进行了优化,根据不同体育类型的相机机位和球场尺度,设计了专门针对特定比赛的识别网络,大大降低了网络的复杂度;基于连续帧的姿态计算骨长度和 BMI 等球员特征,在数据库中进行匹配提升识别准确率;针对多相机从内存到显存大量数据拷贝 IObound 问题,使用 CUDA 多流技术实现了内存拷贝与数据处理并行化,降低了 overhead,4 路4k 相机数据的拷贝与转码从 50ms 减少到 30ms;然后使用量化工具对网络进行 fp16/int8(QAT) 量化加速,最后使用 NVIDIA TensorRT 针对 NVIDIA 数据中心 GPU 编译,在 NVIDIA 数据中心 GPU 上能达到最优性能的模型。 

图2:计算延迟解决思路 

图片来源及所属:Galasports 望尘科技 

6、整个流水线经过 TensorRT 编译运行在 NVIDIA 数据中心 GPU 上,每路视频信号由一张 GPU 进行实时计算,最后在 CPU 中对多路计算结果降噪融合。最终,以足球场场景为例,追踪目标为 1 个足球 + 22 名球员 + 3 名教练的位置与骨骼,在一张 NVIDIA 数据中心 GPU 设备上我们实现了平均 50ms/帧的速度,在二张 NVIDIA 数据中心 GPU 设备上能达到平均 30ms/帧的速度,整个流水线比原型提升了 18 倍。 

使用了 NVIDIA TensorRT 推理加速引擎和 NVIDIA 数据中心计算卡,Arena4D 整个流水线可实时运行,进一步提升了用户使用体验,为扩展 AI 体育方向的其他业务、甚至是 XR 场景的加入打下了良好的基础。 

NVIDIA 助力望尘科技打造新一代实时 AI 体育全场景多维重构引擎 

Arena4D 通过 NVIDIA TensorRT 等技术,实现了多视图在 3D 空间的追踪、提升了识别骨长度和 BMI 等球员特征的准确率、完成了内存拷贝与数据处理的并行化、改进了网络结构和算子使其适合体育场的稀疏变化,最终实现全流程 GPU 加速,速度提升超过 50~100 倍。 

AI 体育行业是最受关注的人工智能应用领域之一,传统的体育企业也开始拥抱科技,纷纷引入人工智能产业。一个集技术、人才与场景优势的科技企业必须与一个优秀的合作伙伴一起积极开拓和长期发展。NVIDIA 提供的 GPU 解决方案,解决了深度学习和机器学习的技术难题,使得望尘科技在 AI 体育领域能够持续不断地创新产品,拓宽 AI 应用场景,为观众和球迷提供新时代的数字化全新观赛体验。 

NVIDIA初创加速计 

望尘科技是NVIDIA初创加速计划 (NVIDIA Inception) 会员企业。NVIDIA初创加速计划为免费会员制、旨在培养颠覆行业格局的优秀创业公司。该计划联合国内外知名的风投机构,创业孵化器,创业加速器,y,打造创业加速生态系统。能够提供产品折扣,技术支持,市场宣传,融资对接,业务推荐等一系列服务,加速创业公司的发展。 

想获得 NVIDIA 初创加速生态助力?扫描下方二维码,仅需一分钟填写意向申请表单,获得快速联系。