会员服务 ·

超级变变变：喵星人汪星人还有街景神奇变身 | Paper+Code

2017 年 10 月 6 日 量子位 专注报道AI

夏乙千平发自猴姆
量子位出品 | 公众号 QbitAI

只会卖萌的猫主子分分钟变身百兽之王？

白天能不能懂夜的黑？

你的汪星人如果是其他品种会是什么样？

不用想象，有个AI已经（完全不用人插手）“脑补”一切。先展示结果：

给一张小猫咪的图像（左边），AI就能自动让它变身狮子王（右边）。

给一张白天的图像（左边），AI就能自动脑补出夜晚的样子（右边），还把灯效加上了~

给一张冬天的图像（左边），AI就能脑补夏天会是什么景象（右边），还把叶子加上了~

UNIT

上面这些神奇的变身，都属于“图像到图像翻译”的问题。

这些结果都来自Nvidia研究团队的一篇NIPS 2017论文：UNsupervised Image-to-image Translation networks。

Ming-Yu Liu（刘洺堉）等研究员提出了一种基于耦合生成对抗网络（Coupled GAN）和变分自动编码器（VAE）的无监督图像到图像翻译框架，他们还根据首字母缩写（强行）给“无监督图像到图像翻译”起了个名字：UNIT。

论文中提到，从概率模型的角度来分析图像到图像的翻译问题，会发现其中的关键挑战是学习不同领域图像的联合分布。

△ 共享潜在空间假设

为了推断联合分布，Ming-Yu Liu等使用了“共享潜在空间假设”，假设不同领域的一对对应图像（x₁、x₂）可以映射到共享潜在空间（z），UNIT框架就建立在这个假设的基础之上。

上图中的E₁和E₂是两个编码函数，可以将图像映射到潜在编码，而G₁和G₂是两个生成函数，从潜在编码映射到图像。

△ UNIT框架结构

在UNIT框架中，研究人员用VAE-GAN对每张图像建模，其中抗性训练目标与权重共享约束相互作用，实施共享空间，以在两个域中生成相对应的图像，而VAE将翻译的图像与相应域中的输入图像关联起来。他们用卷积神经网络（CNN）重建了E₁、E₂和G₁、G₂，并通过权重共享限制来实现了共享潜在空间假设。

搞定这个框架之后，研究人员们把它用到了各类无监督图像到图像翻译任务上，比如说……

能完成街景在晴天雨天、白天黑夜、夏景雪景之间的转换，支持640×480的图片；也能在合成图像和真实照片之间进行转换：

还可以在各种狗狗品种之间转换，只要养一只狗，发朋友圈的时候就可以在哈士奇、德牧、柯基、萨摩耶、英国牧羊犬可以变来变去：

除了狗，还有猫，但不是你家的各类长毛短毛主子，而是在家猫、老虎、狮子、美洲狮、美洲虎、猎豹之间互相转换：

当然，最常见的人脸变换这个模型也能搞定，可以生成出金发、微笑、山羊胡、戴眼镜等等特征：

要想说自己的模型好，当然还得和别人的作品比较一下。

几位研究员用街景门牌号数据集SVHN、MNIST和USPS数据集之间的变换测试了模型性能，和SA、DANN、DTN、CoGAN等模型进行了比较。

UNIT框架在SVHN→MNIST任务上的准确率达到0.9053%，远高于同类模型。

Paper+Code

如果你对这篇论文感兴趣，可以直接阅读原文。Paper地址：https://arxiv.org/abs/1703.00848

另外，Nvidia研究团队还放出了这项研究的代码。这是一个无监督图到图翻译的Coupled GAN算法PyTorch实现。

GitHub地址：https://github.com/mingyuliutw/UNIT

更多这个项目的图像变换结果，可以在以下地址查看。

https://photos.app.goo.gl/5x7oIifLh2BVJemb2

我们还挑了几段视频，直接贴在这里。比方冬天变夏天：

还有小猫和兽王互相变身：

研究团队

Ming-Yu Liu（刘洺堉）

刘洺堉是Nvidia Research的研究员，专注于计算机视觉和机器学习方向。此前先后供职于英特尔和三菱。刘洺堉2003年在台湾交通大学获得学士学位，2012年在马里兰大学帕克分校获得博士学位。

刘洺堉个人主页的信息显示，今年他已经发布了9篇论文，除了上面这篇中NIPS（Spotlight）之外，他还有一篇论文中了IJCAI，有两篇中了CVPR（包括一篇Oral）：

Tactics of Adversarial Attack on Deep Reinforcement Learning Agents
Yen-Chen Lin, Zhang-Wei Hong, Yuan-Hong Liao, Meng-Li Shih, Ming-Yu Liu, Min Sun
International Joint Conference on Artificial Intelligence (IJCAI), 2017 Melbourne, Australia
Paper：https://arxiv.org/abs/1703.06748
Project：http://yclin.me/adversarial_attack_RL
Deep 360 Pilot: Learning a Deep Agent for Piloting through 360 Sports Videos
Hou-Ning Hu, Yen-Chen Lin, Ming-Yu Liu, Hsien-Tzu Cheng, Stanley Chang, Min Sun
Conference on Computer Vision and Pattern Recognition (CVPR) Oral, 2017, Honolulu, Hawaii
Paper：https://arxiv.org/abs/1705.01759
CASENet: Deep Category-Aware Semantic Edge Detection
Zhiding Yu, Chen Feng, Ming-Yu Liu, Srikumar Ramalingam
Conference on Computer Vision and Pattern Recognition (CVPR), 2017, Honolulu, Hawaii
Paper：https://arxiv.org/abs/1705.09759

Thomas Breuel

Thomas Breuel是Nvidia的杰出研究科学家（Distinguished Research Scientist）。去年10月加入Nvidia之前，他在Google担任研究科学家的工作。他还长期在德国凯泽斯劳腾大学任教，以及供职于施乐、IBM等公司。

Thomas Breuel本硕毕业于哈佛大学，1992年在麻省理工获得博士学位。来自Google Scholar的信息显示，Thomas Breuel今年除了这篇论文，还有一份专利申请获批。

Jan Kautz

Jan Kautz是Nvidia视觉计算和机器学习研究的高级总监，领导整个视觉计算研发小组。此外他还一直担任伦敦大学学院的教职。

他本科毕业于德国埃尔朗根-纽伦堡大学，随后在滑铁卢大学获得硕士学位，2003年Jan Kautz在德国马克思·普朗克计算机科学研究所获得博士学位。

今年以来，Jan Kautz还发布了十几篇论文，其中包括：

Learning Affinity via Spatial Propagation Networks
S. Liu, S. De Mello, J. Gu, M.-S. Yang, J. Kautz
Neural Information Processing Systems (NIPS)
Paper：https://arxiv.org/abs/1710.01020
Intrinsic3D: High-Quality 3D Reconstruction by Joint Appearance and Geometry Optimization with Spatially-Varying Lighting
R. Maier, K. Kim, D. Cremers, J. Kautz, M. Niessner
IEEE International Conference on Computer Vision (ICCV)
Paper：https://arxiv.org/abs/1708.01670
A Lightweight Approach for On-The-Fly Reflectance Estimation
K. Kim, J. Gu, S. Tyree, P. Molchanov, M. Niessner, J. Kautz
IEEE International Conference on Computer Vision (ICCV，Oral)
Paper：https://arxiv.org/abs/1705.07162
Mixed-primary Factorization for Dual-frame Computational Displays
F.-C. Huang, D. Pajak, J. Kim, J. Kautz, D. Luebke
ACM Transactions on Graphics (Proceedings SIGGRAPH 2017)
Paper：http://research.nvidia.com/publication/2017-06_Mixed-primary-Factorization-for
Dynamic Facial Analysis: From Bayesian Filtering to Recurrent Neural Network
J. Gu, S. De Mello, X. Yang, J. Kautz
IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
Paper：http://research.nvidia.com/publication/dynamic-facial-analysis-bayesian-filtering-recurrent-neural-networks
GA3C: GPU-based A3C for Deep Reinforcement Learning
M. Babaeizadeh, I. Frosio, S. Tyree, J. Clemons, J. Kautz
International Conference on Learning Representations（ICLR）
Paper：https://arxiv.org/abs/1611.06256
Code：https://github.com/NVlabs/GA3C
Pruning Convolutional Neural Networks for Resource Efficient Transfer Learning
P. Molchanov, S. Tyree, T. Aila, T. Karras, J. Kautz
International Conference on Learning Representations（ICLR）
Paper：https://arxiv.org/abs/1611.06440

— 完 —

加入社群

量子位AI社群9群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot3入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot3，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

相关内容

Ming-Yu Liu

关注 0

Ming-Yu Liu是英伟达著名的研究科学家。在2016年加入NVIDIA之前，他是三菱电机研究实验室(MERL)的首席研究科学家。2012年，他获得了马里兰大学帕克学院电子与计算机工程系的博士学位。2014年，他的机器人拣料系统获得了《R&D》杂志颁发的R&D 100奖。他的语义图像合成论文和场景理解论文分别在2019年CVPR和2015年RSS会议上入围最佳论文决赛。在2019年的SIGGRAPH上，他的图像合成作品获得了实时直播秀的最佳表演奖和观众选择奖。他的研究重点是生成图像建模。他的目标是使机器具有类人的想象力。

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

自回归模型:PixelCNN

专知会员服务

28+阅读 · 2020年3月21日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日