AI 走向物理化:全新 NVIDIA NIM 微服务将生成式 AI 引入数字环境

生成式物理 AI NIM 微服务以及 NVIDIA Metropolis 参考工作流旨在协助创建智能的沉浸式工作环境。
作者 Adam Scraba

已有数以百万的用户在借助生成式 AI 进行写作和学习。现在,这项技术还可以帮助他们更有效地探索物理世界。

NVIDIA 在 SIGGRAPH 上宣布了生成式物理 AI 方面的进展,包括 NVIDIA Metropolis 参考工作流和全新的 NVIDIA NIM 微服务,前者用于打造交互式视觉 AI 智能体,后者能够协助开发者训练物理机器,并可让它们更好地处理复杂任务。 

具体包括三个 fVDB NIM 微服务,这些微服务支持 NVIDIA 针对 3D 世界开发的全新深度学习框架,此外还包括能够与通用场景描述 (也就是 OpenUSD) 配合使用的 USD Code、USD Search 和 USD Validate NIM 微服务

NVIDIA OpenUSD NIM 微服务能够与全球首个用于 OpenUSD 开发的生成式 AI 模型(同样由 NVIDIA 开发)搭配使用,使开发者能够将生成式 AI copilot 和智能体纳入到 USD 工作流程,并拓宽 3D 世界的可能性。

NVIDIA NIM 微服务将改变物理 AI 的格局

物理 AI 使用先进的仿真和学习方法,能够帮助机器人和其他工业自动化设备更有效地感知、推理和探索周围环境。该技术正在改变着制造、医疗健康等行业,并通过能够更自主、更精确运作的机器人、工厂和仓库技术、手术 AI 智能体和汽车推动智能空间的发展。

NVIDIA 提供广泛的 NIM 微服务,这些微服务是针对特定模型和行业领域定制的。NVIDIA 面向物理 AI 量身定制的 NIM 微服务套件支持语音和翻译、视觉和智能,以及逼真的动画和行为方面的功能。

借助 NVIDIA NIM,将视觉 AI 智能体转变为远见者

视觉 AI 智能体使用计算机视觉功能来感知物理世界、与物理世界交互并执行推理任务。

具有高度感知和交互能力的视觉 AI 智能体由一种被称为视觉语言模型 (VLM) 的新型生成式 AI 模型提供支持,这些模型能够在物理 AI 工作负载中连通数字感知和现实交互,从而可增强决策能力、准确性、交互性和性能。借助 VLM,开发者可以打造视觉 AI 智能体,即使在非常复杂的环境中,这些智能体也能更有效地处理极具挑战性的任务。 

由生成式 AI 赋能的视觉 AI 智能体正在迅速部署到医院、工厂、仓库、零售店、机场、交通路口等场所。

为了帮助物理 AI 开发者更轻松地打造高性能的自定义视觉 AI 智能体,NVIDIA 提供了一些用于打造物理 AI 的 NIM 微服务和参考工作流。NVIDIA Metropolis 参考工作流可让用户通过简单的结构化方法来定制、打造和部署视觉 AI 智能体,详见博客内容。 

K2K 借助 NVIDIA NIM,使巴勒莫变得更高效、更安全

意大利巴勒莫的城市交通管理人员部署了采用 NVIDIA NIM 的视觉 AI 智能体,以便获得有助于他们更好地管理路况的物理数据分析结果。

NVIDIA Metropolis 合作伙伴 K2K 正在主导开展这项工作,将 NVIDIA NIM 微服务和 VLM 集成到实时分析城市交通摄像头内容的 AI 智能体中。 市政官员可以用自然语言向智能体提问,并快速获得准确的街道活动数据分析结果,以及关于如何改善城市运营的建议,例如调整交通信号灯时间。

全球领先的电子巨头 Foxconn和硕采用了物理 AI、NIM 微服务和 Metropolis 参考工作流,以便更高效地设计和开展批量制造运营。

这些公司正在仿真环境中建设虚拟工厂,来节省大量时间和成本。他们还会在实际部署之前在数字孪生中对其物理 AI(包括 AI 多摄像头和视觉 AI 智能体)进行更全面的测试和优化,以便提高工人安全性和运营效率。 

通过合成数据生成缩小仿真与现实之间的差距

许多已部署 AI 的企业现在都采用“仿真优先”的方法,来开展涉及现实世界工业自动化的生成式物理 AI 项目。 

制造公司、工厂物流公司和机器人公司需要管理复杂的工作人员互动、先进的设施和昂贵的设备。 NVIDIA 物理 AI 软件、工具和平台(包括物理 AI 以及 VLM NIM 微服务、参考工作流和 fVDB)可以帮助他们简化高度复杂的工程,让他们更轻松地创建准确模拟现实世界条件的数字表示或虚拟环境。

VLM 能够生成高度逼真的图像,因此在各行各业得到广泛应用。不过,创建准确的物理 AI 模型需要大量的数据,因此训练这些模型可能非常困难。

使用计算机仿真从数字孪生生成的合成数据能够有效替代现实世界数据集。获取现实世界数据集进行模型训练可能成本非常高昂,有时甚至不可能获得此类数据集,具体取决于用例。 

借助 NVIDIA NIM 微服务和 Omniverse Replicator 等工具,开发者能够构建生成式 AI 赋能的合成数据管线,加速创建可靠、多样化的数据集来训练物理 AI。 这有助于增强 VLM 等模型的适应能力和性能,使它们能够更有效地针对各行各业和用例进行泛化。

可用性

开发者可以前往 ai.nvidia.com 获取最新、开源、由 NVIDIA 打造的基础 AI 模型和 NIM 微服务。 Metropolis NIM 参考工作流可在 GitHub 资源库中获取,Metropolis VIA 微服务现提供开发者预览版供用户下载。  

OpenUSD NIM 微服务可通过 NVIDIA API 目录进行预览。 

欢迎观看 NVIDIA 创始人兼首席执行官黄仁勋在 SIGGRAPH 上的炉边谈话,了解加速计算和生成式 AI 正在如何改变着各行各业并带来新的创新和发展机会。

查看有关软件产品信息的通知