AI 的下一个重大时刻即将到来——确切地说,是 “看得见” 的时刻。
如今,全球共部署超过 15 亿台企业级摄像头,每年生成约 7 万亿小时的视频。然而,仅有其中一小部分得到了分析。
据估计,工业摄像头拍摄的视频中,仅有不足 1% 会被人类实时观看,这意味着关键运营事件可能在很大程度上被忽视。
这种忽视带来了高昂的代价。例如,制造商每年因产品质量欠佳或存在缺陷,会损失数万亿美元,然而,通过能够感知、分析并帮助人类采取行动的 AI 智能体,这些问题可以被提早发现,甚至被提前预测。
具备内置视觉感知能力的交互式 AI 智能体可以充当始终在线的视频分析师,帮助工厂更高效地运转,增强工人安全保障,维持交通顺畅,甚至可以提升运动员的竞技水平。
为了加速此类智能体的创建,NVIDIA 宣布用户可提前访问用于视频搜索与总结的新版 NVIDIA AI Blueprint。该蓝图基于 NVIDIA Metropolis 平台构建,如今借助 NVIDIA Cosmos Nemotron 视觉语言模型 (VLM)、NVIDIA Llama Nemotron 大语言模型 (LLM) 以及 NVIDIA NeMo Retriever 的强大能力,为开发者提供了构建和部署能够分析大量视频和图像内容的 AI 智能体的工具。
该蓝图集成了 NVIDIA AI Enterprise 软件平台,其中包括用于 VLM、LLM 的 NVIDIA NIM 微服务、以及用于检索增强生成的高级 AI 框架,以实现比实时观看快 30 倍的批量视频处理。
该蓝图包含多种代理式 AI 功能,如思维链推理、任务规划和工具调用,可以帮助开发者更简化地创建强大且多样的视觉智能体,解决各种问题。
具备视频分析能力的 AI 智能体可以与其他拥有不同技能的智能体相结合,以实现更复杂的代理式 AI 服务。企业可以灵活地从边缘到云端构建和部署自己的 AI 智能体。
视频分析 AI 智能体如何助力工业企业
具备视觉感知和分析技能的 AI 智能体可通过以下方式经过微调,助力企业进行工业运营
- 提高生产力并减少浪费:智能体可以帮助确保在产品组装等复杂工业流程中遵循标准操作程序。经过微调,它们还可以仔细观察和理解细微的动作及其执行顺序。
- 通过优化空间利用来提高资产管理效率:智能体可以通过 3D 体积估算,并整合不同摄像头的信息流,来帮助优化仓库中的库存存储。
- 通过自动生成事故报告和总结来提高安全性:智能体可以处理大量视频,并将其总结为内容详实的事故报告。它们还可以帮助确保工厂中个人防护装备的合规使用,提高工业环境中的工人安全。
- 预防事故和生产问题:无论是在仓库、工厂、机场,还是在交通路口或其他市政场所,AI 智能体都可以识别异常活动,快速降低运营和安全风险。
- 从过去汲取经验:智能体可以搜索运营视频档案,从过去的资料中找到相关信息,并利用这些信息来解决问题或创建新流程。
用于体育、娱乐等领域的视频分析工具
视频分析 AI 智能体还将在体育产业发挥重要作用。体育产业在全球拥有规模达 5000 亿美元的市场,预计未来几年还将有数千亿美元的增长。
无论是职业还是业余的教练、球队和联赛,都依赖视频分析来评估和提升球员表现,在优先考虑安全性的基础上,通过球员分析平台和数据可视化来提高球迷的参与度。借助具备视觉感知能力的 AI 智能体,运动员如今能够比以往更加深入地了解自身水平,并获得更多提升机会。
在 CES 主题演讲中,NVIDIA 创始人兼首席执行官黄仁勋展示了一款 AI 视频分析智能体,该智能体将一名业余棒球运动员的快球投球技巧与专业球员进行对比评估。通过对黄仁勋为旧金山巨人队投掷的开球视频进行分析,该视频分析 AI 智能体能够从而给出改进建议。
规模达 3 万亿美元的媒体和娱乐行业也有望通过视频分析 AI 智能体受益。通过 NVIDIA Media2 计划,这些智能体将推动创造更智能、更贴合需求且更具影响力的内容,以适应个人观众的喜好。
全球范围内的应用与可用性
来自世界各地的合作伙伴正在将构建视频分析 AI 智能体的蓝图融入他们的开发者工作流,其中包括埃森哲、Centific、德勤、安永、Infosys、Linker Vision、Pegatron、塔塔咨询服务公司 (TCS)、Telit Cinterion 和 VAST。
申请提前使用 NVIDIA Blueprint 进行视频搜索和总结。
查看有关软件产品信息的通知。
编者注:全球共部署超过 15 亿台企业级摄像头这一数据来源于 Omdia。