猫咪、老虎傻傻分不清楚？揭秘NVIDIA多模态图像转换AI技术

会员服务 ·

猫咪、老虎傻傻分不清楚？揭秘NVIDIA多模态图像转换AI技术

2018 年 4 月 26 日 英伟达NVIDIA中国

NVIDIA研究人员利用全新GPU加速的深度学习技术，能够将图片中的美洲豹同时转换为猫咪、老虎，甚至是狗狗。这项技术对于视频也同样适用。

将一幅图像或一段视频转化为多幅图像或多段视频的能力可以帮助游戏开发人员和电影制作人员加快速度、降低成本，为用户创造出更丰富的体验。除此之外，还可以更快、更轻松地生成各种训练数据，提升自动驾驶汽车的能力，助其应对更多的路况。

一生万物

在去年12月的神经信息处理系统大会和研讨会（NIPS）中，NVIDIA进行了图像转换工作成果的相关演示。NIPS论文中介绍的方法采用的是一对一的方式，将一幅图像或一段视频转换成另一幅图像或另一段视频。如今他们能够在此基础上更上一层楼。

在近日发布的题为“Multimodal Unsupervised Image-to-Image Translation”的论文中，一种叫做“多模态”（Multimodal）的新技术被披露。该技术能够同时将一幅图像转化为多幅图像。

多模态图像转换仅是一个最新的典例，展现了NVIDIA 200 人的研究团队其中的一项突破性成果。NVIDIA的研究人员分布在全球11个不同的地点，致力于推动机器学习、计算机视觉、自动驾驶汽车、机器人、图形、计算机架构、编程系统和其他领域的技术进步。

多模态图像转换技术创造更多“想象力”

与NIPS展示的研究类似，多模态图像转换依赖于无监督式学习和生成式对抗网络 (GAN) 这两项深度学习技术，赋予设备更多“想象力”，例如“想象”一条阳光普照的街道在暴风雨或冬季时的景象。

将一段夏季驾车视频转换为一段冬季驾车视频，这样的技术已然过时。经过不断地推陈出新，研究人员如今能够创建一系列不同的冬季驾车视频，展现降雪量各异的情景。该技术也适用于一天内不同的时段以及其他不同的天气条件，能够在阴云密布的天气中营造出一缕阳光，或者将黑夜转换为黎明、下午或黄昏时分。该项技术在自动驾驶领域将具有非常大的价值，能够帮助训练深度神经网络。

在游戏领域，多模态图像转换可以为工作室提供更快捷、更简单的方式来创建新角色或新环境。艺术家无须再费心处理比较繁冗的任务，而是能够专心去开发更丰富、更复杂的故事。

多模态无监督式图像到图像转换框架（简称 MUNIT）的工作原理是将图像内容与样式分离开来。以一张猫咪的图片为例，猫咪的姿势就是内容，而品种属于样式。姿势是固定的。如果要将一只家猫的图像转换为一只美洲豹或狗狗的图像，那么动物的姿势必须保持一致。发生变化的是品种或物种，比如说，短毛家猫、美洲豹或牧羊犬。

没有数据？不必担心

这项研究以深度学习方法为基础，这种深度学习方法能够生成视觉数据。GAN使用两个互相博弈的神经网络：一个用于生成图像，另一个则用于判别生成的图像是真是假。在数据不足的情况下，GAN尤其有用。

通常，图像转换需要相应图像的数据集——在此案例中，即牧羊犬、拉布拉多巡回犬或老虎的图片，并且其位置应与原始的猫咪图片完全相同。这种数据很难找到，甚至可能根本无法找到。MUNIT的优势就在于，即使没有这些数据，它也可以正常工作。

MUNIT也可以方便地为自动驾驶汽车生成训练数据，而无需在拍摄点、视角、对向交通和其他细节均处于完全相同的前提下拍摄相同的镜头。

此外，借助GAN，人们无需再为每幅图像或每段视频的内容加标签。这是一项需要大量时间和人力的任务。

论文的其中一位作者刘洺堉表示：“我的目标是，让机器具有类似于人类的想象力。人类能够想象冬天会是什么景象，无论树木是只剩光秃秃的枝干，还是被白雪所覆盖。我希望开发出具有相同想象力的人工智能。”

点击“阅读原文”，查看研究论文详情。