【英伟达NIPS论文AI脑洞大开】用GAN让晴天下大雨,小猫变狮子,黑夜转白天

2017 年 12 月 6 日 新智元 费欣欣 常佩琦


新智元AI World 2017世界人工智能大会开场视频


中国人工智能资讯智库社交主平台新智元主办的 AI WORLD 2017 世界人工智能大会11月8日在北京国家会议中心举行,大会以“AI 新万象,中国智能+”为主题,上百位AI领袖作了覆盖技术、学术和产业最前沿的报告和讨论,2000多名业内人士参会。新智元创始人兼CEO杨静在会上发布全球首个AI专家互动资讯平台“新智元V享圈”。


全程回顾新智元AI World 2017世界人工智能大会盛况:


新华网图文回顾
http://www.xinhuanet.com/money/jrzb20171108/index.htm

爱奇艺
上午:http://www.iqiyi.com/v_19rrdp002w.html

下午:http://www.iqiyi.com/v_19rrdozo4c.html

阿里云云栖社区
https://yq.aliyun.com/webinar/play/316?spm=5176.8067841.wnnow.14.ZrBcrm









  新智元报道  

来源:research.nvidia.com

作者:费欣欣 常佩琦


【新智元导读】英伟达最近GAN相关研究和应用方面进展迅猛。在最新的一项工作中,英伟达研究人员利用生成对抗网络(GAN)和无监督学习,创建了一个拥有“想象力”系统,仅需一次数据输入,即可模拟出其他情形,比如将冬日拍摄的照片想象为夏日,将猫想象为狮子、老虎,大大减少网络训练所需的标签数据。对于在医疗、自动驾驶这样标注数据少的领域,拥有极大应用潜力。



只“看”一次,把猫“想象”成狮子,冬日变为夏天




“在无监督学习中使用GAN并不是新鲜事,但我们取得了前所未有的成果,”英伟达在最新发表的一篇官博文章中表示。不仅如此,这项工作还能有效减少训练神经网络所需的标注数据数量。


这项成果指的是今年NIPS上英伟达的论文《无监督图像翻译网络》(Unsupervised Image-to-Image Translation Networks)。在这篇论文中,研究人员展示了一款具有“想象力”的机器学习系统,可以把图像中的白天转换成黑夜,猫变成狮子,等等。



研究人员首先假设,相似的图像都享有一个共同的latent空间,都可以映射为这个共享空间中的同一个latent表示。基于这个假设,他们提出了基于生成对抗网络(GAN)和变分自编码器(VAE)的一个框架。在图像转换(翻译)的过程中,首先,使用VAE-GAN对每个图像域进行建模。对抗训练目标与权重共享约束相互作用,强制共享latent空间在两个域中生成相应的图像,然后VAE将翻译后的图像与各个域中的输入图像相关联,最后就得到了“想象结果”。


论文中不同种类的狗的转换结果,左边一列是输入


英伟达的研究人员表示,这个框架在多种无监督图像翻译问题中,都生成了高清质量的图像。此外,将这个框架应用于领域自适应(domain adaptation)问题,也在基准数据集上取得了state-of-the-art的结果。


最关键的是,在高质量标注数据稀缺的当下,这种方法大大减少了网络训练所需的标签数据,进而减少AI的训练时间。研究人员表示,“以无人驾驶为例,只需捕获一次训练数据,便可在不同的虚拟情景下使用,如晴天、多云、下雪天、雨天、夜晚。”


无需预训练网络,合成2048×1024图像,添一棵树,加上胡子,任君编辑


类似的,就在上周,英伟达和伯克利合作,发布了一个名为pix2pixHD的项目。Pix2pixHD利用条件GAN进行高清图像合成和处理(分辨率2048x1024),输入语义标注图,系统能够生成逼真的现实世界图像,例如街景、人脸。


图:上方是输入的语义地图,下方是pix2pixHD合成图像


作者在论文《使用条件GAN进行高清图像合成和语义操纵》(High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs)中介绍了他们的方法。他们提出了一种多尺度的生成器和判别器架构,结合新的对抗学习目标函数。实验结果表明,条件GAN能够合成高分辨率、照片级逼真的图像,不需要任何手工损失或预训练的网络。




不仅如此,作者还提出了一种方法,让用户能够交互式地编辑物体的外观,大大丰富了生成的数据类型。例如,在下面的视频中,你可以发现用户能够选择更换街景中车辆的颜色和型号,给街景图增加一些树木,或者改变街道类型(例如将水泥路变成十字路)。类似地,利用语义标注图合成人脸时,给定语义标注的人脸图像,你可以选择组合人的五官,调整大小肤色,添加胡子等。


作者在文中指出,他们的方法可以扩展到其他领域,尤其是医疗图像这样缺乏预训练网络的领域。


在这里,还不得不提一下英伟达此前在官网发表了一篇已经提交给 ICLR 2018 的论文“Progressive Growing of GANs for Improved Quality, Stability, and Variation”,提出了一种以渐进增大的方式训练GAN的方法。作者表示,这不仅稳定了训练,还生成了迄今质量最高的GAN生成的图像。


例如上面的人像,忽略背景,几乎与真实照片无异。


英伟达:积极推进GAN在医疗图像和自动驾驶落地


这些研究充分证明了生成模型的潜力,尤其是在无监督的情况下。现在的英伟达,已经远远不止一家专注游戏的GPU公司,一直在试图将其硬件推向边缘设备,并使用人工智能作为实现这一点的手段和工具。


上周,英伟达宣布与通用电气医疗(GE Healthcare)达成协议,通过Revolution Frontier CT,更新全球部署的500,000台医疗成像设备,以便在医院进行更好的成像。而英伟达在自动驾驶领域更是布局已久,今年10月还发布了全球首款AI自动驾驶平台,瞄准L5级自动驾驶。而上述研究无一例外,均在医疗图像和自动驾驶领域有应用潜力。


英伟达第三季度财报显示,截至10月29日的第三季度英伟达营收26.4亿美元,同比增长31.5%,再次创新记录。其中,数据中心业务达到5.01亿美元,汽车业务收入1.44亿美元,增长至13.3%。截至目前,英伟达依靠其在人工智能和无人驾驶方面的优势,股价已经上涨了约92%。



了解更多


  1. Unsupervised Image-to-Image Translation Networks:http://papers.nips.cc/paper/6672-unsupervised-image-to-image-translation-networks.pdf

  2. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs:https://tcwang0509.github.io/pix2pixHD/

  3. Progressive Growing of GANs for Improved Quality, Stability, and Variation:https://arxiv.org/abs/1710.10196



欢迎读者朋友加入新智元读者群一起交流探讨,请加微信(备注名字+学校/企业+研究/关注领域):aiera2015

备注(名字+学校/企业+视觉),加入计算机视觉讨论群。


登录查看更多
0

相关内容

GAN:生成性对抗网,深度学习模型的一种,在神经网络模型中引入竞争机制,非常流行。
姿势服装随心换-CVPR2019
专知会员服务
36+阅读 · 2020年1月26日
【论文】结构GANs,Structured GANs,
专知会员服务
15+阅读 · 2020年1月16日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
33+阅读 · 2020年1月10日
【ICIP2019教程-NVIDIA】图像到图像转换,附7份PPT下载
专知会员服务
55+阅读 · 2019年11月20日
GANs最新综述论文: 生成式对抗网络及其变种如何有用
专知会员服务
72+阅读 · 2019年10月19日
最新《生成式对抗网络GAN进展》论文
专知
95+阅读 · 2019年4月5日
pix2pix 3D版:几笔线条生成超炫猫咪霹雳舞!
新智元
4+阅读 · 2018年9月19日
Ian Goodfellow推荐:GAN生成模特照片媲美真人
新智元
8+阅读 · 2017年10月16日
Deep Co-Training for Semi-Supervised Image Segmentation
VrR-VG: Refocusing Visually-Relevant Relationships
Arxiv
6+阅读 · 2019年8月26日
Pluralistic Image Completion
Arxiv
8+阅读 · 2019年3月11日
Foreground-aware Image Inpainting
Arxiv
4+阅读 · 2019年1月17日
Arxiv
5+阅读 · 2018年10月23日
VIP会员
Top
微信扫码咨询专知VIP会员