NVIDIA 宣布微软、腾讯、百度采用 CV-CUDA 开发计算机视觉 AI

即将推出的公测版优化了前处理和后处理，以四分之一的成本和能耗获得更高的吞吐量。

作者：Michael Boone

微软、腾讯和百度正在采用 NVIDIA CV-CUDA 开发计算机视觉 AI。

NVIDIA创始人兼首席执行官黄仁勋近日在宣布 NVIDIA CV-CUDA 公测版时强调了该开源项目在内容理解、视觉搜索和深度学习方面的成果。CV-CUDA 是一个云计算级别的计算机视觉开源 GPU 加速库。

黄仁勋在 NVIDIA GTC 大会主题演讲中表示：“80% 的互联网流量来自于视频，用户生成的视频内容正在推动流量大幅增长并消耗大量能源。我们应该加速所有视频处理并重新降低能耗。”

CV-CUDA 致力于帮助世界各地的公司在 GPU 上建立和扩展端到端的、基于 AI 的计算机视觉和图像处理流程。

使用 AI 优化互联网规模的视觉计算

大部分的互联网流量来自于视频和图像数据，这推动了内容创作、视觉搜索、推荐以及地图等应用的惊人规模。

这些应用使用一套专门的、反复被使用的计算机视觉和图像处理算法，在神经网络处理图像和视频数据之前和之后对这些数据进行处理。

微软必应的视觉搜索引擎使用 AI 计算机视觉在互联网图片中搜索图片（例如狗粮）。

虽然神经网络通常由 GPU 加速，但支持神经网络的计算机视觉和图像处理算法往往是当今 AI 应用中的 CPU 瓶颈。

CV-CUDA 通过将前处理和后处理步骤从 CPU 转移到 GPU，帮助在单个 GPU 上处理4倍的串流。因此，CV-CUDA能够以四分之一的云计算成本处理同样的工作负载。

CV-CUDA 库为开发者提供30多种高性能的计算机视觉算法，包含原生 Python API 和与 PyTorch、TensorFlow2、ONNX 与TensorRT机器学习框架的零拷贝集成。

其结果是为云 AI 业务提供了更高的吞吐量，同时降低计算成本并减少了碳足迹。

全球对计算机视觉AI的应用情况

全球行业领导者的采用体现了CV-CUDA 为越来越多大规模视觉应用所带来的益处以及多样的支持。拥有大规模图像处理工作负载的企业可以节省数千万乃至数亿美元的费用。

微软正将 CV-CUDA 整合到必应视觉搜索中，以支持用户使用图像而非文本来搜索，寻找类似的图像、产品或网页。

2019年，微软在 GTC 上分享了他们如何利用 NVIDIA 技术将语音识别、智能回答、文字-语音转换技术和物体检测无缝、实时地结合起来。

腾讯已部署 CV-CUDA 来加速其广告创作和内容理解流程，该流程每天处理30多万个视频。

相比之前经过 GPU 优化的工作流，在使用CV-CUDA后，这家总部位于深圳的多媒体集团在图像处理方面的能耗和成本均降低了20%。

而总部位于北京的搜索巨头百度正在将 CV-CUDA 整合到 FastDeploy中。FastDeploy 是百度飞桨深度学习框架的开源部署工具包之一，可以为开源社区的开发者提供无缝的计算机视觉加速。

从内容创建到汽车用例

CV-CUDA 的应用正在不断增加。在Alpha版本发布后的几个月内，就有500多家公司提出了100多个用例。

内容创作和电子商务中的图像会使用前处理和后处理算子来帮助推荐引擎识别、定位和策划内容。

在测绘领域，来自测绘车辆的视频需要预处理和后处理算子来训练云端神经网络，从而识别基础设施和道路特征。

在自动驾驶模拟和验证软件的基础设施应用中，CV-CUDA 使 GPU能够加速在车辆上发生的算法，例如颜色转换、失真校正、卷积和双边过滤等。

未来，生成式 AI 将改变视频内容创作和管理，使创作者能够接触到全球受众。

位于纽约的初创企业 Runway 已通过集成 CV-CUDA，缓解了其视频对象分割模型中的一个关键的高分辨率视频预处理瓶颈。

在部署 CV-CUDA 后，其速度提高了3.6倍，支持Runway 优化其创作工具套件中的实时内容点击响应速度。

Runway 联合创始人兼首席执行官 Cristóbal Valenzuela表示：“对于创作者来说，将一个想法变为现实过程中的每一秒都很宝贵。CV-CUDA 为数百万使用我们工具的创作者带来了积极且重要的变化。”

如需使用 CV-CUDA，请访问CV-CUDA GitHub。

或者在 GTC CV-CUDA 专题分会上了解更多信息。点击链接观看GTC 2023 主题演讲回看。