卓视智通借助T4与DeepStream加速创新车辆识别技术

案例简介

• 北京卓视智通科技有限责任公司专注于AI视频图像识别和大数据技术在交通及安全相关场景行业应用。

• 本案例中利用由NVIDIA P4 GPU、NVIDIA T4 GPU、CUDA加速、TensorRT处理搭建的GPU云服务平台，目前识别速度提升至少几百甚至上千倍，明显大幅提升了GPU的使用效率以及性价比，可对高速公路和城市道路海量交通视频图像、视频进行实时分析，对图像、视频中车辆和行人进行行为分析，对出行者提供有效的交通预警和提醒，是公安、交警等实战必不可少的应用系统。

• 本案例主要应用到 NVIDIA P4、NVIDIA T4，涉及使用技术有：CUDA加速、TensorRT处理。

Case Introduction

• BEIJING SINOITS TECH CO.,LTD focuses on AI video image recognition and big data technology in traffic and safety-related scenarios industry applications.

• In this case, using the GPU cloud service platform built by NVIDIA P4 GPU and NVIDIA T4 GPU, CUDA acceleration, and TensorRT processing, the recognition speed has been increased at least several hundred or even thousands times, which has greatly improved the efficiency and cost performance of GPU, it can be used for real-time analysis of traffic video images and videos on highways and urban roads, as well as analysis of the behavior of vehicles and pedestrians in the images and videos, so as to provide effective traffic warning and reminder for travelers, it is an indispensable application system for public security and traffic police.

• This case mainly applies to NVIDIA P4 GPU, NVIDIA T4 GPU, CUDA and TensorRT.

背景

北京卓视智通公司（以下简称“卓视智通”）是一家专注于AI视频图像识别和大数据技术在交通相关场景行业应用的科技公司。其拥有车辆检测，车辆身份识别，车辆特征识别，车脸识别，车辆身份比对，交通视频结构化分析，非机动车、行人特征识别，人脸识别等核心技术。

卓视智通拥有专业的研发团队、丰富的车辆和行人相关样本数据、完备的深度学习技术储备和大数据开发能力，目前卓视智通车辆识别和大数据产品已成功应用于全国二十多个省市，其交通事件分析和高速公路出入口收费车型识别系统已覆盖将近2万公里的高速公路，5G+车路协同方案已落地全国首个智能网联汽车试验场。

挑战

在交通等相关行业场景下应用目标检测技术，为达到整体应用需求的预期，如何让每个模块在保证推理精度不下降的前提下，达到更快的推理速度及更少的显存资源占用，是卓视智通所要解决的核心挑战。

在进行目标检测时，如果直接使用原始的检测模型，在运行推理任务时，会存在时间消耗与显存资源占用较大的问题——单张推理时间需要40ms，显存占用1657M，导致图片结构化的整体处理量或视频结构化的整体识别分析达不到客户预期。

此外，当把多路视频监控同时接入到服务器进行检测分析时，虽然普通解码库可以满足几十路视频的解码需求，但是如果采用CPU进行后续的视频分析处理，会出现视频编解码效率低的情况，远远无法达到项目需求。因此，需要转而采用GPU进行视频分析。

但如果直接使用检测模型，即便是采用GPU进行视频分析，也会遇到显存占用空间大的问题。在这种情况下，一路视频就需占用2-3G的显存，造成识别速度不够快，而无法达到识别速度需求。以NVIDIA P4 GPU为例，在使用传统视频检测框架，而未采用TensorRT的情况下，使用P4 GPU进行检测，其最多支持3路检测，整体检测效果依然无法达到预期要求。

方案

为了能够满足交通应用场景下目标检测的整理应用需求预期，卓视智通研发团队采用了NVIDIA DeepStream SDK进行开发。NVIDIA Deepstream SDK能够把解码检测模块集成在一起，尽可能地避免了数据在主机与显卡之间频繁拷贝。通过将这些模块紧密集成在一起，可以确保在正确使用数据传输和软件同步的同时，获得最大的硬件并发性。

在保证精度的情况下，选择使用TensorRT进行INT8模式的推理，能够使研发团队在P4 卡上实现了对25路视频的实时检测识别;使用DeepStream的硬解码方案，能够将视频编解码效率提升10倍。

而当采用NVIDIA T4 GPU时，基于卓视智通的车辆图片结构化产品，结合大数据平台进行卡口或高速等实际场景下的车辆信息二次识别，能够达到一张T4 GPU 300-400万的车辆识别数据处理量，满足客户对项目的需求。

使用T4 GPU对检测原始模型进行推理时，每路的显存消耗为1.6G；采用FP32加速后，显存消耗降低到950M；而当采用Int8加速后，显存消耗甚至能够降低到630M。单张推理时间也从最开始的40ms，降低到采用FP32加速后的17.5ms；甚至于在Int8加速情况下，时间能够缩短至7.5ms。

为了保证系统在小目标检测任务中的精度，项目采用FP16进行加速，得到显存650M每路的消耗以及单张推理上的9ms的时间花费。通过在检测模块与其他识别模块的加速方式，在保证精度的前提下，能够满足客户对图片处理量或者视频处理路数的整体需求。

此外，在使用CUDA进行推理加速，同时使用TensorRT，精度选择FP16或IINT8的情况下，团队在保证准确率效果下，又进一步提高了识别速度。后期，卓视智通研发团队将解码作业也部署到了GPU上来完成，如此一来，所达到的识别速度效果更是远超预期，一台服务器最大可支持80路视频实时分析，相比于使用CPU进行检测识别，识别速度提升了几百倍。

影响

目前，卓视智通的项目与产品，对于NVIDIA的产品具有较高的使用率。通过将其在计算机视觉及深度学习领域的专业技术，与NVIDIA GPU和开发工具相结合，卓视智通开发了具有自主知识产权的人车精细化识别产品。卓视智通是国内首家实现360度任意角度车辆品牌年款识别技术的企业，能够对车辆进行精准识别，提取多达4000维度的细微特征，准确识别超过7000款车辆品牌、子品牌、年款，同时还可识别车辆上年检标个数、驾驶窗内部细节、前排司乘人员情况、系安全带检测、是否有天窗等10多种车辆特征。并能够基于多维度车辆特征信息以及过车位置、过车时间等信息对车辆行驶规律、轨迹特征等进行大数据分析，由此衍生出车辆大数据平台、车脸识别Paas云、车路协同系统等产品。

“NVIDIA 提供的 GPU 解决方案，解决了我们在深度学习技术项目中的技术难题，使得我们在智慧交通、车辆识别领域能够持续不断地创新产品，拓宽AI视频图像识别和大数据技术在交通相关场景行业的应用，要想让城市真正智慧、真正落地，必须通过AI场景应用，各个击破。而借助NVIDIA的GPU高性能加速，让我们得以实现毫秒级的检测识别和百倍的识别提速，使得数据的分析与处理整体效率得到提升，让大家能够享受到更多 AI 带来的便捷。”卓视智通创始人兼 CEO 吴柯维表示。