NVIDIA 研究人员在 NIPS 大会上展示深度学习的重大进展

作者 英伟达中国

AI 已经成为一种公众意识。但想要一窥推动 AI 发展的人类思想,不妨先了解 NIPS,可以说它是世界上最负盛名的神经网络和机器学习大会。

研究人员和数据科学家在正式名称为“神经信息处理系统大会和研讨会”(即 NIPS)上分享其开创性成果的历史已达 30 年之久。但仅因为针对深度学习的兴趣在最近爆发,NIPS 才真正地开始腾飞。

nips registration trends
爆满:2017 年 NIPS 大会的先行注册量急速飞涨。

今年我们有两篇论文被收录,并对另外两篇论文作出了贡献。参与的研究人员来自 NVIDIA 研究团队的 120 多名成员,他们致力于推动机器学习、计算机视觉、自动驾驶汽车、机器人、图形、计算机体系结构、编程系统以及其他领域的技术进步。

虽然他们在不同领域工作,但是他们有着共同的目标:推动 AI 科学的进步,开发新的工具和技术以实现更大的突破,并将 AI 技术应用到自动驾驶汽车和医疗保健等重大挑战性领域。

其中一个进展是论文“Learning Affinity via Spatial Propagation Networks”(《通过空间传播网络实现学习相关性》)中的研究,由去年夏天在 NVIDIA 实习、目前在公司担任全职研究科学家的 Sifei Liu 带领。

利用计算机视觉应用程序来理解图像,需要识别并标记所有不同像素所代表的含义。例如,图像中的哪些像素属于自行车的轮胎或车架,哪些属于自行车倚靠的树干。这些任务被称为图像分割,空间传播网络针对此项任务提供了一种准确而高效的技巧。

General architecture of a spatial propagation network
空间传播网络的一般架构。

深度学习网络借助成熟的物理扩散理论可以更好地理解相邻像素之间的关系。这有助于区分诸如自行车车轮、辐条以及辐条之间空白区域的相邻像素。这是图像分割的空间相关性问题,但通过训练网络可以确定许多其他特征的相关性,如颜色、色调、纹理等。

空间传播网络纯粹利用数据来学习定义和建模这些相关性,而不依靠手动设计模型。并且学习模型能够应用于任何有像素级标签要求的任务,包括图像处理(例如 Photoshop)、图像着色和脸部解析等等。此外,模型可以理解相关性,例如图像中的功能或语义关系,这一点甚至可能人类都做不到。

本论文包括神经网络运行的理论基础及对其实现的数学证明。而且运行速度快。在 GPU 上运行 CUDA 并行编程模型,网络速度比之前快达 100 倍。

空间传播网络无需求解任何线性方程或迭代推理。并且能够灵活地嵌入到任何典型的神经网络,成为可在各种情形下使用的潜在保护技术。

我可以把你比作夏日吗?

今年 NIPS 的主趋势是无监督式学习和生成建模。突破性的实例是由 NVIDIA 研究员刘洺堉(与 Sifei 无关)带领的论文“Unsupervised Image-to-Image Translation Networks”(无监督式图像到图像的翻译网络)。

迄今为止,很多深度学习已经能够利用监督式学习为机器提供类似于人类的对象识别能力。例如,监督式学习能够很好地分辨柯基犬和德国牧羊犬之间的区别,并且两个品种的标签图像可以很容易地用于训练。

为了赋予机器更多“充满想像”的能力,比如想象一下冬天的场景变换到夏天会如何,刘洺堉和其团队使用无监督式学习和生成建模来实现。下面是他们的工作实例,将左边图像冬季和晴天的场景作为输入,右边图像对应想象的夏季和雨天的场景。

Unsupervised Image-to-Image Translation Networks

NVIDIA 研究团队的工作是利用共享潜在空间的假设,使用一对生成式对抗网络 (GAN) 来获得此类令人惊叹的效果。考虑上面两幅图像,在冬季场景中训练第一个 GAN — 阴云密布的天空,光秃秃的树木,一切都被白雪覆盖,汽车在冻结的路面上行驶。训练第二个 GAN 使其大体上了解夏天的场景,但是二者并没有在同一特定场景中进行训练。

这怎么可能!你需要在相同的取景位置,以相同的视角,面对同一精确位置的所有交通情况和其他细节 — 对于夏季和冬季均要如此。该团队开发的无监督式学习摆脱了这种捕获和标记需求,否则其将花费大量的时间和人力。

这种无监督式翻译是通过共享潜在空间的假设来实现的,通过对其中的一些参数实施绑定以建立 GAN 之间的彼此联系。通过将图像从第一种 GAN 转移到第二种 GAN 来生成对冬季场景的夏季翻译。

针对无监督式学习使用 GAN 技术并不新奇,但 NVIDIA 研究呈现的效果 — 多云的天空下,透过浓密的树叶洒落的阴影 — 远远领先于之前所见的任何效果。

该技术具有广泛的潜在优势。除具有较少的标记数据以及有关其创建和理解的时间和精力需求外,深度学习专家可以跨领域应用该项技术。针对自动驾驶汽车而言,可以一次截取训练数据,然后在各种虚拟场景下进行模拟:晴天、阴天、雪天、雨天、夜晚等。

images of cats from nvidia research at nips
无监督式图像到图像翻译网络技术能够自然地应用到包括猫等多种领域。

欲更多了解 NVIDIA 研究人员在 NIPS 大会上对其他两篇论文作出的贡献,请参阅“Semi-Supervised Learning for Optical Flow with Generative Adversarial Networks”(生成式对抗网络下光流的半监督式学习)和 “Universal Style Transfer via Feature Transforms”(通过特征转换传递通用风格)。

如果您在本周尚在长滩参加 NIPS 大会,欢迎前来了解 NVIDIA 研究小组的工作成果:

通过空间传播网络实现学习相关性

海报会议:12 月 5 日星期二,下午 6:30-10:30太平洋宴会厅 127

无监督式图像到图像翻译网络

焦点会议:12 月 6 日星期三,上午 11:25-11:30C 馆

海报会议:12 月 6 日星期二,下午 6:30-10:30太平洋宴会厅 120