在德国慕尼黑举行的机器人学习大会(CoRL)上,Hugging Face 和 NVIDIA 宣布开展合作,将通过整合双方的开源机器人社区来加速机器人的研发。
通过结合 Hugging Face 的 LeRobot 开放式 AI 平台与 NVIDIA AI、Omniverse 和 Isaac 机器人技术,研究人员和开发者将能够推动制造业、医疗健康和物流等行业的进步。
物理 AI 时代的开源机器人
机器人能够理解环境物理特性的物理 AI 时代已经到来,它正在迅速改变全球的各行各业。
为了推动并维持这股快速创新的势头,机器人研究人员和开发者需要获得开源、可扩展的框架,并且这些框架需要涵盖机器人训练、仿真和推理的开发过程。凭借在共享框架下发布的模型、数据集和工作流,相关人员无需重新编写代码就能随时使用最新的技术。
Hugging Face 领先的开放式 AI 平台为 500 多万机器学习研究人员和开发者提供了简化 AI 开发过程的工具和资源。Hugging Face 用户可以访问和微调最新的预训练模型,并通过 Hugging Face Hub 上免费提供的 150 多万个模型、数据集和应用,在通用 API 上构建 AI 管线。
Hugging Face 开发的 LeRobot 将该公司 Transformers 和 Diffusers 库中的成功范式扩展到了机器人领域。LeRobot 提供了一套综合且全面的工具,可用于共享数据采集、模型训练和仿真环境以及低成本机械臂套件的设计。
NVIDIA 的 AI 技术、仿真和开源机器人学习模块化框架(如 NVIDIA Isaac Lab)可以加速 LeRobot 的数据采集、训练和验证工作流。研究人员和开发者可以共享那些使用 LeRobot 和 Isaac Lab 建立的模型和数据集,为机器人社区创造一个数据飞轮。
利用仿真扩大机器人开发规模
开发物理 AI 具有一定的挑战性。与使用大量互联网文本数据的语言模型不同,基于物理学的机器人依赖于物理交互数据和视觉传感器,而此类数据很难大规模采集。采集那些在真实世界的大量任务和环境中的机器人灵巧操作数据是一项既耗时又费力的工作。
Isaac Lab 让这一切变得更容易。该框架基于 NVIDIA Isaac Sim 构建而成,可使用高保真渲染和物理仿真,创建出逼真的合成环境与数据,通过在仿真环境中演示或试错来进行机器人训练。通过将 GPU 加速物理仿真与并行环境执行相结合,Isaac Lab 从单次演示中就能生成海量训练数据,这些数据在真实世界中需要演示数千次才能获得。
然后,生成的运动数据将被用于训练具有模仿学习的策略。在仿真中成功训练和验证后,这些策略将被部署到真实的机器人上,并在那里进行进一步的测试和调整,以达到最佳性能。
这一迭代过程充分利用了真实世界数据的准确性和仿真合成数据的可扩展性,确保了机器人系统的稳健性与可靠性。
通过在 Hugging Face 上共享这些数据集、策略和模型,可以创建一个机器人数据飞轮,使开发者和研究人员能够在彼此工作的基础上更上一层楼,推动该领域的进步。
佐治亚理工学院助理教授 Animesh Garg 表示:“只要我们齐心协力,机器人社区就会蓬勃发展。通过 Hugging Face 的 LeRobot 和 NVIDIA Isaac Lab 等开源框架,我们加快了 AI 机器人研究与创新的步伐。”
促进合作和社区参与
拟定的协作工作流包括在 Isaac Lab 中通过远程操作和仿真采集数据,并将其存储为标准的 LeRobotDataset 格式。然后,使用 GR00T-Mimic 生成的数据将被用于训练具有模仿学习的策略,并对该策略进行仿真评估。最后,经过验证的策略将部署到搭载 NVIDIA Jetson 的真实机器人上进行实时推理。
这项合作已经迈出了第一步,双方展示了一个在 NVIDIA Jetson Orin Nano 上运行的 LeRobot 软件的物理拾取设置,为部署提供了一个功能强大的紧凑计算平台。
LeRobot 首席研究科学家 Remi Cadene 表示:“Hugging Face 开源社区与 NVIDIA 硬件、Isaac Lab 仿真的结合,有望加速机器人领域的 AI 创新。”
NVIDIA 社区对边缘生成式 AI 领域作出的贡献构成了这项工作的基础。该工作不仅支持最新的开放模型和库(如 Hugging Face Transformers),还优化了大语言模型(LLM)、小语言模型(SLM)和多模态视觉语言模型(VLM)的推理,以及 VLM 基于动作的视觉语言动作模型(VLA)变体、扩散策略和语音模型。这一切都得到了社区的大力支持。
Hugging Face 与 NVIDIA 的共同目标是加速全球机器人研发生态的工作,从而深入改变运输、制造和物流等行业。
了解 NVIDIA 在 CoRL 上发表的机器人研究论文,包括集成 VLM 来优化环境理解、时空导航和长视野规划。观看 NVIDIA 研究人员在CoRL上举办的研讨会 。