NVIDIA AI 技术助力腾讯云音视频 PaaS 平台构建高性能、高质量的云直播及媒体处理服务

案例简介

本案例中，腾讯云音视频 PaaS 平台与 NVIDIA 团队合作，利用 NVIDIA TensorRT 加速视频直播和点播业务中视频增强 AI 模型的推理效率；借助 NVIDIA Maxine Video Effects SDK 的 AI 绿幕功能实现高性能高精度的人像分割，提升云导播台服务的用户体验。
本案例主要应用到 NVIDIA GPU、NVIDIA TensorRT、NVIDIA Maxine 及 NVIDIA Codec SDK。

Case Introduction

In this case, Tencent Video PaaS platform cooperates with NVIDIA and accelerates the inference efficiency of video enhancement AI models in live broadcasting and on-demand video services with NVIDIA TensorRT. With the AI green screen function of NVIDIA Maxine Video Effects SDK, Tencent Cloud achieves high-performance and high-precision human segmentation and improves the user experience of the Cloud Live Video Caster service.
This case powered by NVIDIA GPUs, NVIDIA TensorRT, NVIDIA Maxine, and NVIDIA Codec SDK.

客户简介及应用背景

腾讯云音视频 PaaS 平台专注技术产品，构建了行业中极速高清智能转码、超低时延快直播的音视频解决方案，连续四年居于市场份额和解决方案首位^[1]，覆盖国内 90% 音视频客户。团队通过不断的技术创新和产品优化引领行业发展，其中，腾讯云-媒体处理融合视频 AI 技术持续突破核心编解码技术，2021/2022 MSU 世界云端视频转码比赛综合最佳，且在最新的 SLC 评测中，也取得多项最佳的成绩，另外腾讯云-媒体处理服务支撑全网 40%+ 实时媒体处理量^[2]。”低延时、低码率、高画质”，腾讯云音视频为全真互联时代，提供坚实的数字化助力。

客户挑战

在构建高品质高性能的音视频解决方案的过程中，往往会面临许多挑战。

首先，由于网络传输或采集设备不佳的原因，直播或点播的画质可能出现不清晰的问题，此时需要应用视频增强算法，如视频超分辨率。为了不影响用户的观看体验，视频增强算法需要以足够低的延时运行。此外，音视频 PaaS 平台还需要对视频进行高效的视频标签识别、视频分类、视频剪辑等，这都必须藉由AI模型的推理速度，达到最佳程度的优化和加速。

另外，在直播场景中，用户希望对主播直播的画面应用虚拟背景，这要求将人像从直播画面中精准地分割出，并应用预设的背景。如何获得实时性高、准确性强的人像分割也是一个难点。

应用方案

腾讯云音视频 PaaS 平台与 NVIDIA 在诸多产品和业务中开展了深入合作，共同打造高性能的音视频解决方案。

在云直播 CSS 服务以及媒体处理 MPS 服务中，腾讯云推出视频增强功能。为了加速视频增强模型的推理速度，腾讯云使用了 NVIDIA TensorRT 对模型进行高性能优化。TensorRT 是构建在 NVIDIA 的并行编程模型 CUDA 基础之上的，结合最新一代 NVIDIA Ampere 架构 GPU，TensorRT 还可以利用 Tensor Core 实现稀疏性加速的特点。对于深度学习推理应用的生产环境部署方面，TensorRT 提供了 INT8 和 FP16 的优化，低精度推理能够极大的降低应用的延迟，有益于实现实时视频增强服务。

在云直播 CSS 云导播台业务的 AI 智能人像抠图功能中，腾讯云采用了 NVIDIA Maxine Video Effects SDK 中提供的 AI Green Screen（简称 AIGS）功能，对直播画面进行实时而准确的人像分割。Maxine AIGS 对视频流抠图的精度和稳定性做了专门的优化，并且加入了 CUDA Graph优化技术，及时在 GPU 负载高的时候也能降低整体的延时，使得云导播台的人像分割模块能实现多路并发、远超实时的处理高效率。Maxine AIGS 提供了简单易用的 API 接口，腾讯云音视频 PaaS 平台可直接在 FFmpeg filter 中通过 API 调用该功能，并可与其他多媒体处理 filter 联动对视频流进行处理。

最后，在媒体处理 MPS 业务中的视频 AI 功能，涉及到了多个深度学习模型的推理，腾讯云同样采用 NVIDIA T4 GPU 进行高性能推理。这得益于几乎所有主流的深度学习框架均能在 NVIDIA GPU 上执行高效计算。

使用效果及影响

NVIDIA TensorRT 在腾讯云音视频 PaaS 平台的提供的视频增强和视频 AI 功能中，使得推理阶段的应用在 NVIDIA T4 GPU 上可以实现同比单一 CPU 平台高达 40 倍的加速效果。TensorRT 可以从所有主流的深度学习框架中导入训练好的模型并进行优化，同时提供相应的 API 和解析器，生成经过优化的运行时引擎可以部署到画质增强服务中。

未来，腾讯云音视频 PaaS 平台与 NVIDIA 将持续合作，进一步提升音视频产品和服务中 AI 算法的性能。双方将基于 NVIDIA TensorRT 最新的特性，利用低精度和稀疏化模型压缩技术，对云直播和云点播业务中涉及到的视频增强与视频 AI 功能模型的推理进行大幅加速。此外，NVIDIA Maxine 在视频特效和音频特效方面持续发布新特性，包括音频超分技术、立体环绕声增强技术等，也将助力腾讯云音视频 PaaS 平台提供更丰富的音视频服务和功能。双方在未来也将不断探索打造编解码、AI、图形渲染全流程 GPU 加速的视频处理方案。

[1] 资料来源于腾讯云音讯频开发者社区官网，其数据来源于国际数据公司（IDC）发布的《中国视频云市场跟踪(2021上半年) 》https://cloud.tencent.com/developer/article/2046119。

[2] 资料来源于腾讯云音讯频开发者社区官网，据莫斯科国立大学（MoscowState University）于2021年与2022年举办的MSU云端视频转码大赛（CloudVideo Transcoding Services Comparison）成绩公布https://cloud.tencent.com/developer/article/1794385; https://cloud.tencent.com/developer/article/2057612 。