案例简介
• 北京卓视智通科技有限责任公司专注于AI视频图像识别和大数据技术在交通及安全相关场景行业应用。
• 本案例中利用由NVIDIA Tesla P4 GPU、NVIDIA Tesla T4 GPU、CUDA加速、TensorRT处理搭建的GPU云服务平台,目前识别速度提升至少几百甚至上千倍,明显大幅提升了GPU的使用效率以及性价比,可对高速公路和城市道路海量交通视频图像、视频进行实时分析,对图像、视频中车辆和行人进行行为分析,对出行者提供有效的交通预警和提醒,是公安、交警等实战必不可少的应用系统。
• 本案例主要应用到 NVIDIA Tesla P4、NVIDIA Tesla T4,涉及使用技术有:CUDA加速、TensorRT处理。
Case Introduction
• BEIJING SINOITS TECH CO.,LTD focuses on AI video image recognition and big data technology in traffic and safety-related scenarios industry applications.
• In this case, using the GPU cloud service platform built by NVIDIA Tesla P4 GPU and NVIDIA Tesla T4 GPU, CUDA acceleration, and TensorRT processing, the recognition speed has been increased at least several hundred or even thousands times, which has greatly improved the efficiency and cost performance of GPU, it can be used for real-time analysis of traffic video images and videos on highways and urban roads, as well as analysis of the behavior of vehicles and pedestrians in the images and videos, so as to provide effective traffic warning and reminder for travelers, it is an indispensable application system for public security and traffic police.
• This case mainly applies to NVIDIA Tesla P4 GPU, NVIDIA Tesla T4 GPU, CUDA and TensorRT.
背景
北京卓视智通科技有限责任公司(以下简称“卓视智通”)是一家专注于AI视频图像识别和大数据技术在交通及安全相关场景行业应用的科技公司。其拥有车辆检测,车辆身份识别,车辆特征识别,车脸识别,车辆身份比对,交通视频结构化分析,非机动车、行人特征识别,人脸识别等核心技术。
卓视智通拥有专业的研发团队、丰富的车辆和行人相关样本数据、完备的深度学习技术储备和大数据开发能力,目前卓视智通车辆识别和大数据产品已成功应用于全国二十多个省市,其交通事件分析和高速公路出入口收费车型识别系统已覆盖将近2万公里的高速公路,5G+车路协同方案已落地全国首个智能网联汽车试验场。
挑战
在交通及安全等相关行业场景下应用目标检测技术,为达到整体应用需求的预期,如何在每个模块下保证推理精度不下降的前提下达到更快的推理速度及更少的显存资源占用,是开发团队所要解决的核心挑战。
在进行目标检测时,发现直接使用原始的检测模型,在Inference时,时间消耗与显存资源占用较大,单张Inference时间需要40ms,显存占用1657M,导致在图片结构化上的整体处理量或视频结构化整体的识别分析达不到客户的预期。
多路视频监控同时接入到服务器做检测分析,虽然普通解码库可以满足几十路视频的解码需求,但是如果采用CPU进行之后视频分析处理,视频编解码效率低,而远远无法达到项目需求。因此,需要转而采用GPU进行视频分析。
但如果直接使用检测模型,即便是采用GPU进行视频分析,也遇到显存占用空间大的问题,而无法达到识别速度需求。在这种情况下,一路视频就占需用2-3G的显存,造成识别速度不够快。以NVIDIA P4 GPU为例,在使用传统视频检测框架,二位采用TensorRT的情况下,使用P4 GPU进行检测,其最多支持3路检测,整体检测效果仍无法达到预期要求。
方案
为了能够满足交通安全应用场景下目标检测的整理应用需求预期,卓视智通研发团队采用了NVIDIA DeepStream SDK,基于该SDK进行开发。NVIDIA Deepstream SDK能够把解码检测模块集成在一起,尽可能地避免了数据在主机与显卡之间频繁拷贝。通过将这些模块紧密集成在一起,可以确保在正确使用数据传输和软件同步的同时获得最大的硬件并发性。
在保证精度的情况下,选择使用TensorRT进行INT8模式的推理,能够使研发团队在P4 卡上实现了对25路视频的实时检测识别;使用DeepStream的硬解码方案,能够将视频编解码效率提升10倍。
借助于NVIDIA T4 GPU,在基于本公司的车辆图片结构化产品上,进行卡口或高速等场景下的车辆信息二次识别(对车辆的位置、车辆品牌、车身颜色、车辆品牌、车辆类型与收费类型、驾驶员安全带与打电话相关属性、车辆特征码、车辆用途(危化品车等)以及车辆的局部信息如:车灯、车窗、抽纸盒等相关信息的识别),结合大数据平台进行实际场景的应用,目前能够达到一张T4卡300-400万的车辆识别数据处理量,满足目前项目上客户的需求。使用T4卡对检测原始模型进行Inference时,每路的显存消耗为1.6G,FP32加后,显存消耗降低为950M,甚至在Int8加速后能够达到630M显存的消耗。单张Inference时间从最开始的40ms,降低到使用FP32的17.5ms,甚至在Int8下面的7.5ms。为了保证在小目标检测上的精度,项目上使用FP16进行加速,得到显存650M每路的消耗以及单张Inference上的9ms的时间花费。通过在检测模块与其他识别模块的加速方式,在保证精度的前提下,能够在整体图片处理量或者在视频处理路数上满足客户的需求。
此外,在使用CUDA进行推理加速,同时使用TensorRT,精度选择FP16或IINT8的情况下,团队在保证准确率效果下,又进一步提高了识别速度。后期,卓视智通研发团队将解码作业也部署到了GPU上来完成,如此一来,所达到的识别速度效果更是远超预期,一台服务器最大可支持80路视频实时分析。相比于使用CPU进行检测识别,识别速度提升了几百倍。
影响
目前,卓视智通的项目与产品,对于NVIDIA的产品具有较高的使用率。通过将其在计算机视觉及深度学习领域的专业技术,与NVIDIA GPU和开发工具相结合,卓视智通开发了具有自主知识产权的人车精细化识别产品。卓视智通是国内首家实现360度任意角度车辆品牌年款识别技术的企业能够对车辆进行精准识别,提取多达4000维度的细微特征,准确识别超过7000款车辆品牌、子品牌、年款,同时还可识别车辆上年检标个数、驾驶窗内部细节、前排司乘人员情况、系安全带检测、是否有天窗等10多种车辆特征。并能够基于多维度车辆特征信息以及过车位置、过车时间等信息对车辆行驶规律、轨迹特征等进行大数据分析,由此衍生出车辆大数据平台、车脸识别Paas云、车路协同系统等产品。 “NVIDIA 提供的 GPU 解决方案,解决了我们在深度学习技术项目中的技术难题,使得我们在智慧交通、车辆识别领域能够持续不断地创新产品,拓宽AI视频图像识别和大数据技术在交通及安全相关场景行业的应用场景,要想让城市真正智慧、真正落地,必须通过AI场景应用,各个击破。而借助NVIDIA的GPU高性能加速,让我们得以实现毫秒级的检测识别和百倍的识别提速,使得数据的分析与处理整体效率得到提升,让大家能够享受到更多 AI 带来的便捷。”卓视智通创始人兼 CEO 吴柯维表示。