猫咪、老虎傻傻分不清楚?揭秘NVIDIA多模态图像转换AI技术

2018 年 4 月 26 日 英伟达NVIDIA中国

NVIDIA研究人员利用全新GPU加速的深度学习技术,能够将图片中的美洲豹同时转换为猫咪、老虎,甚至是狗狗。这项技术对于视频也同样适用。


将一幅图像或一段视频转化为多幅图像或多段视频的能力可以帮助游戏开发人员和电影制作人员加快速度、降低成本,为用户创造出更丰富的体验。除此之外,还可以更快、更轻松地生成各种训练数据,提升自动驾驶汽车的能力,助其应对更多的路况。



一生万物


在去年12月的神经信息处理系统大会和研讨会(NIPS)中,NVIDIA进行了图像转换工作成果的相关演示。NIPS论文中介绍的方法采用的是一对一的方式,将一幅图像或一段视频转换成另一幅图像或另一段视频。如今他们能够在此基础上更上一层楼。


在近日发布的题为Multimodal Unsupervised Image-to-Image Translation”论文中,一种叫做“多模态”(Multimodal)的新技术被披露。该技术能够同时将一幅图像转化为多幅图像。


多模态图像转换仅是一个最新的典例,展现了NVIDIA 200 人的研究团队其中的一项突破性成果。NVIDIA的研究人员分布在全球11个不同的地点,致力于推动机器学习、计算机视觉、自动驾驶汽车、机器人、图形、计算机架构、编程系统和其他领域的技术进步。




多模态图像转换技术创造更多“想象力”


与NIPS展示的研究类似,多模态图像转换依赖于无监督式学习生成式对抗网络 (GAN) 这两项深度学习技术,赋予设备更多“想象力”,例如“想象”一条阳光普照的街道在暴风雨或冬季时的景象。


将一段夏季驾车视频转换为一段冬季驾车视频,这样的技术已然过时。经过不断地推陈出新,研究人员如今能够创建一系列不同的冬季驾车视频,展现降雪量各异的情景。该技术也适用于一天内不同的时段以及其他不同的天气条件,能够在阴云密布的天气中营造出一缕阳光,或者将黑夜转换为黎明、下午或黄昏时分。该项技术在自动驾驶领域将具有非常大的价值,能够帮助训练深度神经网络。


在游戏领域,多模态图像转换可以为工作室提供更快捷、更简单的方式来创建新角色或新环境。艺术家无须再费心处理比较繁冗的任务,而是能够专心去开发更丰富、更复杂的故事。


多模态无监督式图像到图像转换框架(简称 MUNIT)的工作原理是将图像内容与样式分离开来。以一张猫咪的图片为例,猫咪的姿势就是内容,而品种属于样式。姿势是固定的。如果要将一只家猫的图像转换为一只美洲豹或狗狗的图像,那么动物的姿势必须保持一致。发生变化的是品种或物种,比如说,短毛家猫、美洲豹或牧羊犬。


没有数据?不必担心


这项研究以深度学习方法为基础,这种深度学习方法能够生成视觉数据。GAN使用两个互相博弈的神经网络:一个用于生成图像,另一个则用于判别生成的图像是真是假。在数据不足的情况下,GAN尤其有用。


通常,图像转换需要相应图像的数据集——在此案例中,即牧羊犬、拉布拉多巡回犬或老虎的图片,并且其位置应与原始的猫咪图片完全相同。这种数据很难找到,甚至可能根本无法找到。MUNIT的优势就在于,即使没有这些数据,它也可以正常工作。


MUNIT也可以方便地为自动驾驶汽车生成训练数据,而无需在拍摄点、视角、对向交通和其他细节均处于完全相同的前提下拍摄相同的镜头。


此外,借助GAN,人们无需再为每幅图像或每段视频的内容加标签。这是一项需要大量时间和人力的任务。


论文的其中一位作者刘洺堉表示:“我的目标是,让机器具有类似于人类的想象力。人类能够想象冬天会是什么景象,无论树木是只剩光秃秃的枝干,还是被白雪所覆盖。我希望开发出具有相同想象力的人工智能。”


点击“阅读原文”,查看研究论文详情。



登录查看更多
0

相关内容

自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
35+阅读 · 2019年12月15日
【中科大徐童】多模态语义理解与关联
专知会员服务
82+阅读 · 2019年12月7日
【ICIP2019教程-NVIDIA】图像到图像转换,附7份PPT下载
专知会员服务
54+阅读 · 2019年11月20日
 图像内容自动描述技术综述
专知会员服务
86+阅读 · 2019年11月17日
学习一个宫崎骏画风的图像风格转换GAN
AI科技评论
18+阅读 · 2020年3月13日
pix2pix 3D版:几笔线条生成超炫猫咪霹雳舞!
新智元
4+阅读 · 2018年9月19日
AI都可以将文字轻松转成图像
计算机视觉战队
4+阅读 · 2018年7月24日
【学界】毫秒级图像去噪!英伟达、MIT新AI系统完美去水印
GAN生成式对抗网络
8+阅读 · 2018年7月17日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Arxiv
21+阅读 · 2018年5月23日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
11+阅读 · 2018年1月11日
VIP会员
相关VIP内容
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
35+阅读 · 2019年12月15日
【中科大徐童】多模态语义理解与关联
专知会员服务
82+阅读 · 2019年12月7日
【ICIP2019教程-NVIDIA】图像到图像转换,附7份PPT下载
专知会员服务
54+阅读 · 2019年11月20日
 图像内容自动描述技术综述
专知会员服务
86+阅读 · 2019年11月17日
相关资讯
相关论文
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Arxiv
21+阅读 · 2018年5月23日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
11+阅读 · 2018年1月11日
Top
微信扫码咨询专知VIP会员