飞搜科技: Tesla P100助力图像超分辨率重建领域大放异彩

作者 英伟达中国

背景

高清图像在交通录像取证,竞技场景细节还原等环境下,为专业人士提供着至关重要的细节信息,但在实际应用中,由于制作工艺和成本的考虑,很多场合都不会采用高分辨率、超分辨率的相机来进行图像信号的采集,因此,将低分辨率的图片还原成高分辨率图片就非常重要。

图像超分辨率(Super Resolution, SR)就是将低分辨率(Low Resolution, LR)的图像通过一定的算法转提升到高分辨率(High Resolution, HR)的技术。以往传统的图像超分辨率技术在图像还原方面差强人意,而且需要大量人力进行比对,效率很低。GPU和深度学习的大规模应用为整个行业带来了突破性的发展。目前,使用GPU来加速图片超分辨率重建已经成为业界内逐渐成熟的技术方案。

案例介绍

作为NVIDIA初创加速计划成员,北京飞搜科技有限公司(以下简称“飞搜科技”)在计算机视觉领域拥有多项世界领先的研究成果,尤其是在人脸识别、目标追踪、目标检测等领域。该公司通过采用NVIDIA Tesla P100对图像进行大规模的深度学习训练,实现了对视频监控图像中对低质量图片快速重建,且重建出的高清图像的人眼感官效果也颇佳,远超传统超分辨率方法。

传统图像超分变率重建效果差强人意,GPU带来行业革新

图像超分辨率领域在早期用传统方法,仅仅能从图像表层特征进行推测,从而扩大图片尺寸和分辨率,在学术界和评测上一般用PSNR(Peak Singnal-to-Noise Ratil峰值信噪比,此值越大越好)。传统方法在提高PSNR值上效果显著,但真正重建之后的图片,跟人眼日常所见及预期恢复的图像还有很大差别,会让人从感官上觉得“不像”。

在上述基础上,相关领域研究人员尝试使用神经网络来进行图像超分辨率重建,此举再次提升了 PSNR 的结果,但是其重建 速度慢,而且对复杂场景,或者存在多层隐藏特征的图片,重建之后仍然会有跟原本物体不一样的感觉。

与此同时,通过监控来发现异样是一个非常耗费人力的工作,而且在发现异常之后,想要通过放大图片,对异常部分想要进行更多的了解和分析也会耗费更多精力,利用过去的方法不仅不会提高工作效率,反倒会由于重建结果不好而耽误时间。

现在,随着深度学习以及GPU的大规模应用,在超分辨率这个问题上能进行更大规模的训练,得到的深度学习模型不仅仅有一个更高的PSNR结果,同时在重建之后的人眼感官效果上也有不错的表现,能够贴近现实生活的物体。目前,使用GPU来加速图片超分辨率重建已经成为业界内逐渐成熟的技术方案。

GPU深度学习凸显图像重建优势

在针对监控视频中不清楚的图像进行超分辨率重建流程中,首先由监控人员发现视频中的问题,然后针对视频序列截帧得到的图片,选择出需要高清图片的这一帧,之后将此图片传入深度学习模型,由深度学习模型在GPU上进行特征提取,根据提取的特征再进行大尺寸高分辨率图像重建,得到高分辨率图片后,再由人工观察高清图片获取所需要的信息。

Physical lobby, digital car – brought together with NVIDIA CloudXR.

由于深度学习中的卷积神经网络CNN具有良好的特征提取特性,所以飞搜科技的研究团队在图像超分辨率中应用CNN来进行特征提取,然后利用转置卷积和随机通道等方法放大图像尺寸。具体而言,首先将待进行放大的图片尺寸统一,然后将此图片输入CNN模型,使用随机通道排序方法将图片尺寸扩大。正是由于CNN良好的特征提取能力,使得图片重建后具有良好的视觉感官效果和PSNR值。

Physical lobby, digital car – brought together with NVIDIA CloudXR.

CNN进行超分示意图,输入一个尺寸为fxf大小的低质量图片,然后进行n层输出大小仍然为fxf的卷积运算,同时固定卷积核大小,最后一个卷积层将输出即将进行随机通道排序的特征图。

Physical lobby, digital car – brought together with NVIDIA CloudXR.

进行随机通道重排之后放大图片的示意图,每一个特征图对应一个通道,按照通道的前后顺序以及卷积核的大小来对每个特征值在输出图片上的位置进行重新排列(上图中卷积核大小为2×2

全新图片超分辨率重建技术获得认可

凭借在超分辨率领域的出色表现,飞搜科技研究团队在2018年计算机视觉顶级会议CVPR(Computer Vision and Pattern Recognition)workshop NTIRE(New Trends in Image Restoration and Enhancement)竞赛中获得优异成绩。

飞搜科技的解决方案也在诸多领域应用中效果显著,在对博彩业视频图片进行超分辨率重建的实例中,图a和图b(下图所示)就是进行重建前后的图片对比。可以看到,该算法模型在图片放大后能保留很多细节信息,比如扑克牌上和筹码上的数字,在放大后仍然有较好的视觉感官。

Physical lobby, digital car – brought together with NVIDIA CloudXR.
a(左)为小尺寸低分辨率图片,图b(右)为大尺寸高分辨率图片

可以说,在NVIDIA Tesla P100系列GPU的大力支持下,随着深度学习的快速发展以及其在超分辨率领域的应用,用更多的数据训练更大的模型以实现图片超分辨率重建成为了现实。不仅训练速度快,而且训练完成之后的模型在运行速度上也会比CPU快几倍到几十倍,在PSNR指标上也得到了很大的提高,同时更贴近正常生活中的物体线条。

飞搜科技借助Tesla P100实现超分辨率图像重建只是这一领域应用的冰山一角,未来将会有规模更大,更具有代表性的数据和更好的硬件来进一步提高图片超分辨率在实际应用中的能力和表现。

www.nvidia.com

© 2019 NVIDIA Corporation. All rights reserved.

h2{ color: #76B900; }