在米兰举行的欧洲计算机视觉国际会议 (ECCV) 上,NVIDIA Research 展示了多项突破性的创新成果,共发表了 14 篇论文。
本次 NVIDIA Research 所展示的领域从具身智能基础模型到检索增强生成和神经辐射场。其中大部分展示的成果都在汽车研究领域,包括:
- RealGen:RealGen 是一种新颖的基于检索、在上下文中学习的新型交通场景生成框架,此可控交通场景检索增强生成的灵感来自大语言模型中检索增强生成的成功经验,它可以通过组合多个检索示例的行为合成新的场景。
- NeRFect Match:探索用于视觉定位的 NeRF 特征,研究视觉定位,即确定查询图像相对于 3D 环境的摄像机姿态。在 3D 环境中定位智能体是自动驾驶等应用的一项基础能力。
- Dolphins:拟人驾驶多模态语言模型介绍了一种新型视觉语言模型 Dolphins,该模型专为深入学习类似人类的驾驶能力而构建。Dolphins 善于处理由视频或图像数据、文本指令和历史控制信号组成的多模态输入,以此生成与所提供的指令相对应的输出。
此外,NVIDIA 首席研究科学家 Tsung-Yi Lin 荣获了 Koenderink 奖。该奖项旨在表彰为计算机视觉领域作出重要贡献并且能够经受住时间考验的研究。Koenderink 奖每两年颁发一次,颁发给 10 年前在 ECCV 上发表过有影响力论文的研究者。今年的 Koenderink 奖颁发给了 2014 年发表“Microsoft COCO:上下文中的常见对象”一文的研究者,Lin 是该论文的共同作者。
NVIDIA 研究人员共同组织了多场 ECCV 研讨会并发表了演讲。其中,具身智能合作智能研讨会受到了关注,该研讨会主要探讨了多代理自主系统中的合作智能。以视觉为中心的智能驾驶研讨会则探讨了适用于智能驾驶的视觉感知和视觉语言模型以及驾驶场景神经渲染。
NVIDIA 高级研究经理 Laura Leal-Taixé 担任本次会议主席。NVIDIA 学习与感知研究副总裁 Jan Kautz、智能驾驶汽车应用研究总监 Jose Alvarez、AI 研究副总裁 Sanja Fidler 和智能驾驶汽车研究总监 Marco Pavone 担任组委会成员。
NVIDIA 在 ECCV 上发表的全部论文如下:
- RealGen:基于检索增强生成的可控交通场景
- NeRFect Match:探索用于视觉定位的 NeRF 特征
- Dolphins:拟人驾驶多模态语言模型
- 通过扩散引导逆向渲染实现真实感对象插入
- SEGIC:挖掘用于上下文内分割的新兴对应关系
- 更好地呼唤 SAL:迈向激光雷达中的任意物体分割学习
- 通过直接 BEV 特征注意力加速在线地图测绘和行为预测
- SPAMming 标签:适用于未来追踪器的高效注解
- DiffiT:用于图像生成的扩散视觉 Transfomer
- LITA:语言指导的时间定位助手
- 对于授权使用合成的说话人脸视频虚拟化身的识别
- COIN:用于人类和摄像机运动估计的控制-绘制扩散先验
- 一个语义空间等于 256 条语言描述:借助描述性属性建立更强大的分割模型
- 使用 LCM-Lookahead 实现基于编码器的文本到图像个性化转换
了解有关 NVIDIA Research 的更多信息请访问:https://www.nvidia.cn/research/
查看往期 NVIDIA 自动驾驶实验室系列视频, 深入探究自动驾驶算法:https://www.nvidia.cn/self-driving-cars/drive-videos/
*图片来源于论文“NeRFect Match:探索用于视觉定位的 NeRF 特征”,若您有任何疑问或需要使用本文中图片,请联系论文作者。