解放双手,让 AI 迈向未来:NVIDIA XR AI 将智能体引入 AR 眼镜

NVIDIA XR AI 现已推出公测版,为开发者提供了一个构建适用于 AR 眼镜和 XR 设备的多模态 AI 智能体的框架。
作者

AI 正在跨越聊天机器人和智能副驾的范畴,步入物理世界。在实验室、工厂和医院中,新一代 AI 智能体开始与人类共同协作,帮助人们了解环境、获取知识并实时采取行动。

然而,构建智能体系统以帮助人们执行实际工作是一项具有挑战性的任务,因为这需要将模型、技能、Harness、工具和一个智能体运行时相结合。为了在动态的现实环境中有效运行,这些智能体仅仅能够生成响应还远远不够。

它们就像人类员工一样,需要具备知识、工具和专业技能,通过视频、音频和传感器数据感知和理解世界,解析快速变化的条件和空间上下文、从企业系统中检索信息、推理出合适的下一步操作,并调用软件工具来完成任务。这一切都必须以低延迟的方式进行,并且在不分散用户注意力的情况下为用户提供支持。

NVIDIA XR AI 是一个帮助开发者构建这些智能体应用的开发者库。通过将 AR 眼镜和 XR 设备的输入与 AI 模型、企业数据、工具和加速计算相连接,NVIDIA XR AI 能够让智能体在工作流中进行感知、推理和行动。

它为开发者构建或连接企业级 XR 应用的技能和工具奠定了基础,并简化了多模态感知、企业检索、推理模型和智能体编排的集成。在这些功能相结合的作用下,构建具备空间感知能力的多模态 AI 智能体变得更加容易,从而在 AR 和 XR 体验中提供低延迟且具备上下文感知的协助。

该平台整合了四种核心功能:

  • 从 AR 和 XR 设备中获取现实世界的信号,包括视频、音频、深度、姿势和传感器数据。
  • 将智能体与专用工具和服务连接起来,包括用于视觉 AI 和视频理解的 NVIDIA Metropolis 及其视频搜索与摘要功能,以及用于企业知识检索和检索增强生成 (RAG) 的 NVIDIA NeMo Retriever。
  • 支持广泛的 AI 模型生态系统,包括 NVIDIA Nemotron 推理模型、NVIDIA Cosmos Reason 和其他兼容的基础模型。
  • 集成智能体编排和加速运行时服务,帮助开发者从原型开发走向生产部署。

NVIDIA NeMo Agent Toolkit 支持工具使用、推理工作流和多智能体协调,而包括 NVIDIA DGX Spark、NVIDIA DGX Station 和 NVIDIA RTX PRO 系统在内的 NVIDIA 加速计算平台,则为在云、数据中心和边缘环境中运行推理提供了基础设施。

这些功能共同使 AI 智能体能够理解周围环境、访问企业知识、推理复杂任务并实时提供上下文帮助。

各行业将 NVIDIA XR AI 投入使用

在制造、科学、医疗、设计和沉浸式学习等领域,开发者和企业已经在利用 NVIDIA XR AI,将 AI 智能体嵌入到实际工作场景中。

西门子正在研究 NVIDIA XR AI 和 NVIDIA DGX Spark 如何帮助工厂工程师查找维护信息、排查故障、验证工作并记录车间内发生的情况。

借助该系统,戴着轻型眼镜的工程师可以向 AI 智能体询问可编程逻辑控制器的问题,并获得实时指导,从而将工业系统、数字孪生和自动化工作流连接起来。

在研究实验室中,致力于为科学研究构建 AI 系统的 AutoBio 公司 Rana,正在推出其 LabOS 系统,该系统基于 NVIDIA XR AI,可将空间智能直接引入到科学工作流中。LabOS 为复杂的实验工作流提供实时的解放双手的指导,并在斯坦福大学医学院 Cong 实验室普林斯顿大学 Wang 实验室的干细胞疗法和基因编辑研究中率先应用。

LabOS Co-Scientist 基于 XR AI 架构构建,能够感知、理解实验室环境并采取行动,帮助研究人员识别合适的样本和 CRISPR 基因编辑器,指导每个实验步骤,并在人类、机器人和 AI 系统在工作台上协作时捕捉结构化、可重复的记录。

通过 AR 眼镜提供并由 NVIDIA GPU 驱动的物理感知 AI 智能体,可作为 AI 辅助科学的新一代界面 —— 让研究人员能够专注于复杂程序,同时实时接收上下文指导。

LabOS 与 Meta、Rokid 和 VITURE 的智能眼镜兼容。

VITURE 将 NVIDIA XR AI 集成到可穿戴界面中,为员工提供解放双手的方式,以便在工作现场找到正确的上下文并指导下一步操作。同样的 XR AI 基础技术也自然而然地从实验室扩展到了诊所和工业环境。

在手术室中,匹兹堡大学医疗中心 (UPMC) 的 Surreality Lab 展示了 NVIDIA XR AI 如何通过上下文感知辅助来支持手术团队。该工作流在 NVIDIA XR AI 和 NVIDIA DGX Station 上运行,旨在帮助团队查找信息并引导注意力,同时避免给外科医生带来视觉干扰。

通过理解在外科医生的视野中哪些内容不应被遮挡,该系统可以在不影响其对患者和手术过程关注度的同时,呈现有用的上下文信息。

在汽车设计领域,Innoactive 展示了企业如何在沉浸式工作流中捕捉相关信息和数据,以支持设计决策。

在 NVIDIA DGX Spark 系统的支持下,该体验帮助团队保留来自设计审核、产品展厅和数字孪生的上下文,使空间工作从一次性场景应用转变为可重复的企业流程。

Atlantic Studios 是一家多次获得奥斯卡奖和艾美奖的沉浸式媒体工作室,该公司正在使用 NVIDIA XR AI 让观众探索呈现泰坦尼克号现状的沉浸式扫描模型。

用户可以使用语音提示来查找兴趣点,并通过历史遗址引导探索 —— 将复杂的水下模型转化为交互式空间故事,以实时回答问题、提供背景信息并帮助用户学习。

随着 AI 智能体获得感知物理世界、使用工具、访问企业知识和与人类协作的能力,它们正在成为一种新型的数字员工。NVIDIA XR AI 提供了开发者所需的库和加速计算基础,帮助他们为实验室、工厂、医院和沉浸式环境构建这些智能体 —— 将代理式 AI 直接引入到工作流中。

详细了解 NVIDIA XR AI 并访问开发者资源

请参阅软件产品信息注意事项