更自由的GAN图像联想：无监督跨类的图像转换模型FUNIT，英伟达&康奈尔大学

2019 年 6 月 24 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。点击文末“阅读原文”立刻申请入群~

来源：David 9的博客

已获作者授权，请勿二次转载

想要释放模型的威力，可以尝试解放其输入的自由度，要知道，婴儿对外界各种形式信息从来都是来者不拒 ——David 9

如果你没看到过老虎坐着的样子，但是你看到过其他小动物坐着的样子，你很自然地联想到老虎坐着应该是什么样子（如下图片所示）。

然而要让模型跨类转换图像，就没有那么容易，英伟达&康奈尔大学使用的FUNIT模型的图像生成任务如下：

来自： https://arxiv.org/pdf/1905.01723.pdf

项目地址：https://nvlabs.github.io/FUNIT/

随意抽取一张原内容图片（Content image）, 同时给出你想要转换到的目标类别（Target class），最后，需要由模型把原图片转换成目标类别的独特属性。如果你有一张小狗的图片，模型可以为你联想这只小狗“进化”成狮子会是什么样？

FUNIT训练框架如下：

来自： https://www.youtube.com/watch?v=kgPAqsC8PLM

模型分3大块：内容编码器（Content Encoder）,　类别编码器（Class Encoder）以及总解码器（Decoder）。当然，要通过这三个组件构造老套的GAN训练平衡，总的Loss函数如下：

其中3项分别表示GAN的loss, 图像本身构图的loss, 以及特征匹配的loss 。

其中,

1. GAN的loss保证生成器和判别器之间的博弈，即，生成器竭力生成与目标类别相似的图像让判别器无法判断；判别器要竭力区分不同类别图片之间的区别。

2. 图像本身构图的loss保证生成的图像要像原图片的构图，即，转换后的图像要在内容上像转换前的图像（虽然类别性质明显不同）。

3. 特征匹配的loss用来给整个训练加上正则，保证生成的图像用cnn编码的倒数几层的特征值，与目标类别图像cnn倒数几层的特征值相似，即，生成图像与目标类别中的图像也都是相似的。

整个模型的源代码还没有完全公开，大家可以关注以下链接，有新进展可以联系作者一起讨论成长：

https://github.com/nvlabs/FUNIT/，　

参考文献：

https://nvlabs.github.io/FUNIT/
https://arxiv.org/abs/1905.08233
https://www.youtube.com/watch?v=kgPAqsC8PLM

本文采用署名 – 非商业性使用 – 禁止演绎 3.0 中国大陆许可协议进行许可。著作权属于“David 9的博客”原创，如需转载，请联系微信：david9ml，或邮箱：yanchao727@gmail.com

原文：

http://nooverfit.com/wp/%E4%B8%8D%E5%8F%98%E4%BF%A1%E6%81%AF%E8%81%9A%E7%B1%BB%EF%BC%9A%E6%BB%A1%E8%B6%B3%E4%BD%A0%E5%AF%B9%E6%97%A0%E7%9B%91%E7%9D%A3%E6%B7%B1%E5%BA%A6%E8%81%9A%E7%B1%BB%E7%9A%84%E4%B8%80%E7%82%B9/

*延伸阅读

点击左下角“阅读原文”，即可申请加入极市目标跟踪、目标检测、工业检测、人脸方向、视觉竞赛等技术交流群，更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~

觉得有用麻烦给个在看啦~

登录查看更多

相关内容

FUNIT

关注 0

自回归模型:PixelCNN

专知会员服务

29+阅读 · 2020年3月21日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

【ICIP2019教程-NVIDIA】图像到图像转换，附7份PPT下载

专知会员服务

55+阅读 · 2019年11月20日

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

专知会员服务

22+阅读 · 2019年11月2日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

NVIDIA/悉尼科技大学/澳洲国立大学新作：用GAN生成高质量行人图像，辅助行人重识别

极市平台

4+阅读 · 2019年5月21日

四大指标超现有模型！少样本的无监督图像翻译效果逆天| 技术头条

AI100

6+阅读 · 2019年5月13日

【学界】英伟达又火了一篇图像转换论文，我们竟然用来吸猫

GAN生成式对抗网络

3+阅读 · 2019年5月10日

一图生万物！英伟达推超强图像转换神器，小样本一秒猫变狗

新智元

9+阅读 · 2019年5月10日

【BicycleGAN】NIPS 2017论文图像转换多样化，大幅提升pix2pix生成图像效果

专知

6+阅读 · 2017年12月2日

Seeing What a GAN Cannot Generate

Arxiv

8+阅读 · 2019年10月24日

CapsuleGAN: Generative Adversarial Capsule Network

Arxiv

4+阅读 · 2018年9月25日

Sem-GAN: Semantically-Consistent Image-to-Image Translation

Arxiv

4+阅读 · 2018年7月12日

Learning Semantic Sentence Embeddings using Pair-wise Discriminator

Arxiv

6+阅读 · 2018年6月15日

DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks

Arxiv

9+阅读 · 2018年1月16日

VIP会员

更自由的GAN图像联想：无监督跨类的图像转换模型FUNIT，英伟达&康奈尔大学

GAN（生成对抗网络）万字长文综述

CVPR 2018 | 无监督且多态的图片样式转换技术，康奈尔大学与英伟达新作MUNIT及其源码

最强GAN修图魔术师：美颜生发摘眼镜、草绘秒变真人脸

相关内容