38篇CVPR2020 GAN论文合集!

2020 年 5 月 28 日 专知

来自 | 知乎

地址 | https://zhuanlan.zhihu.com/p/114303075

作者 | 江山如画

编辑 | 机器学习算法与自然语言处理,专知公众号

本文仅作学术分享,若侵权,请联系后台删文处理


以后会持续更新,希望大家能够一起探讨,共同学习,有兴趣可以私信我。

4月29日已更新,增加3篇,共38篇。

4月24日已更新,增加2篇,共35篇。

4月17日已更新,增加4篇,共33篇。

4月14日已更新,增加1篇,共29篇。

4月10日已更新,增加4篇,共28篇。

4月06日已更新,增加1篇,共24篇。

4月02日已更新,增加3篇,共23篇。

3月31日已更新,增加3篇,共22篇。

3月30日已更新,增加2篇,共19篇。

1、Interpreting the Latent Space of GANs for Semantic Face Editing

https://genforce.github.io/interfacegan/ genforce.github.io

CUHK Bolei Zhou团队的文章,第一作者Yujun Shen目前在FacekBook做Research intern。该文章主要讲对已经训练好的GAN进行编辑,训练超平面,将图像的特征和latent code对应起来,通过编辑latent code距离超平面的距离来控制图像的特征信息。主要的实验是在StyleGAN和ProGAN上进行的。目前从效果上来看尚未能够完全的将特征解耦。由于我比较关注ID信息,发现变化过程中ID信息难以维持。这篇文章挂出来比较久,应该很多人都知道了。

2、Image Processing Using Multi-Code GAN Prior

https://arxiv.org/pdf/1912.07116.pdf arxiv.org

和第一篇文章是相同团队的作品,所以研究内容也是一脉相承。该文章主要讲利用已经训练好额GAN网络对训练集不可见domain图像的重构,同样也是在styleGAN和proGAN上进行试验的。由于单一噪声学习到的是训练集的分布,所以为了完成对未知domain图像的重构,作者采用多个噪声输入。作者认为“每一个噪声无法重构完整的图像,但是能够重构出图像的一部分内容,所以多个噪声联合,便能够重构出完整的图像”。当然,如果在噪声域进行联合,则依然跳不出噪声的分布,所以是在生成器的中间层,多特征进行融合。最终效果也是非常好,对于不可见图像完成逼真的重构。该方法可以作为无监督的方法实现图像的超分、去噪、上色等等。具有较大的应用价值,强烈推荐。

3、Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses

https://arxiv.org/pdf/2003.05905.pdf arxiv.org

该文章主要实现的是人脸表情编辑。

4、Alleviation of Gradient Exploding in GANs: Fake Can Be Real

https://arxiv.org/pdf/1912.12485.pdf arxiv.org

GAN的判别。

5、Noise Robust Generative Adversarial Networks

https://arxiv.org/pdf/1911.11776.pdf arxiv.org

这篇文章讲的是在有噪声的训练集上训练GAN网络生成无噪声的图像,并且不需要预先给定噪声的分布数值。后续作者又挂出了该文章的升级版《Blur, Noise, and Compression Robust Generative Adversarial Networks》(arxiv.org/pdf/2003.0784)

6、PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models

https://arxiv.org/pdf/2003.03808.pdf arxiv.org

这篇文章是Duke大学的文章,与第二篇文章相同,同样是实现不同domain图像的重构,我看了一下,可能没懂。我感觉作者认为噪声分布能够重构出其他domain的图像。latent code对应的一个超球面上分布,基于梯度的方法无法实现在球面的上优化,而是使得latent code向球心运动,所以为了重构出其他domain的数据,需要一些技巧在球面上移动latent code。

7、A Characteristic Function Approach to Deep Implicit Generative Modeling

https://arxiv.org/pdf/1909.07425.pdf arxiv.org

该文章类似于WGAN-GP,讲的是GAN的基础架构,。

8、Your Local GAN: Designing Two Dimensional Local Attention Mechanisms for Generative Models

https://arxiv.org/pdf/1911.12287.pdf arxiv.org

该文章讲的是一种稀疏的注意力机制,作者认为,不仅在GAN上,在其他注意力相关任务上也可以应用。

9、Semantic Pyramid for Image Generation

https://arxiv.org/pdf/2003.06221.pdf arxiv.org

该文章讲利用训练好的分类等提取高层语义的网络,通过不同layer的加入融合,来控制生成图像。语义信心越low,则图像越和输入接近,否则和输入变化越大,只是保留相同的语义。

10、MSG-GAN: Multi-Scale Gradient GAN for Stable Image Synthesis

https://arxiv.org/pdf/1903.06048.pdf arxiv.org

这篇文章和proGAN比较类似,不同的是proGAN是逐层渐进训练的,而该方法是每一层都约束,由于该文章比较早就挂出来了,网上讲解的有很多。这里便不做过多介绍。

11、From Patches to Pictures (PaQ-2-PiQ): Mapping the Perceptual Space of Picture Quality

PaQ-2-PiQ baidut.github.io

严格来说,这并不是一篇GAN的文章。而是一种图像质量的评价方法,近年来已经有很多文章研究真实的感知损失,替代在一些情况下容易失效的L1和L2 Loss。而我们知道在GAN的训练中,除了GANloss之外,其他的Loss也同样重要,所以研究感知损失,也是和GAN息息相关的。

12、CNN-generated images are surprisingly easy to spot... for now

https://arxiv.org/pdf/1912.11035.pdf arxiv.org

同样,该文章也不是GAN方法的文章。而是讲述如何区分真实的图像和GAN生成的图像。那么作为“强大的敌人”,如果将其引入到GAN的鉴别器中,应该对GAN质量的提高带来一定的帮助。

13、Face X-ray for More General Face Forgery Detection

https://arxiv.org/pdf/1912.13458.pdf arxiv.org

这篇文章与第12篇属于相同的范畴,不做不过介绍,对GAN和真实图像区分感性的同学可以看看。

14、Watch your Up-Convolution: CNN Based Generative Deep Neural Networks are Failing to Reproduce Spectral Distributions

https://arxiv.org/pdf/2003.01826.pdf arxiv.org

这篇文章是从频率的角度来讲GAN损失情况,也就是对真实图像和GAN生成的图像进行频谱分析,发现即便是styleGAN这种效果卓群的网络,在频域上依然与真实的图像存在差异,为此设计添加频率约束的生成网络,保证了生成图像的质量。

15、On Positive-Unlabeled Classification in GAN


https://arxiv.org/pdf/2002.01136.pdf arxiv.org


该文章的主要思路是,鉴别器判断图像的质量而不是图像的real和fake,通过该方式提高生成图像的质量。

16、GAN Compression: Efficient Architectures for Interactive Conditional GANs

https://arxiv.org/pdf/2003.08936.pdf arxiv.org

该文章讲述的是GAN的压缩方法,在保证GAN效果的同时,能够大大降低生成器的冗余,在pixel2pixel,cycleGAN等条件GAN网络上取得了显著的效果,压缩率超过了1/9。

17、BachGAN: High-Resolution Image Synthesis from Salient Object Layout

https://arxiv.org/pdf/2003.11690.pdf arxiv.org

从布局生成图像的方法,相较于GauGAN从语义生成图像,该方法对于用户的输入要求更低,只需要给出几个boundingbox便可以生成图像。同样任务论文,arxiv也新挂出来一篇,感兴趣的可以看看arxiv.org/pdf/2003.1169。这个领域应该是一个月来越得到重视的GAN的子领域。

18、Controllable Person Image Synthesis with Attribute-Decomposed GAN

https://arxiv.org/pdf/2003.12267.pdf arxiv.org

北大和字节跳动的文章,主要是描写人物的合成,从文章给出的图来看效果还是很好的,可以提取不同人的特征组合出一个新的人物来,实现控制一个人的姿势穿着等等。

19、Augmenting Colonoscopy using Extended and Directional CycleGAN for Lossy Image Translation

https://arxiv.org/pdf/2003.12473.pdf arxiv.org

主要是cycleGAN在医学图像转换中的应用,但是文章提出的训练技巧在所有的cycleGAN相关任务中应该都能够有着较好的应用,对于使用cycleGAN的人还是值得一看的。

20、Adversarial Feature Hallucination Networks for Few-Shot Learning

https://arxiv.org/pdf/2003.13193.pdf arxiv.org

利用条件WGAN实现特征的合成,进而实现分类的数据集扩增。


21、One-Shot Domain Adaptation For Face Generation

https://arxiv.org/pdf/2003.12869.pdf arxiv.org

FAIR的文章,利用已经训练好的styleGAN网络,反向编辑latent code,再微调GAN网络。生成和单张target image具有相同分布图像,实现数据集扩增。该文章已经完成解析,详见

江山如画:One-Shot Domain Adaptation For Face Generation论文解析 zhuanlan.zhihu.com

22、Semantically Mutil-modal Image Synthesis

https://arxiv.org/pdf/2003.12697.pdf arxiv.org

华中科大的文章,利用语义生成图像,GroupDNet—— Group Decreasing Network。网络非常规地采用群卷积,并修改卷积的组数以减少解码器中的数量,从而大大提高了训练效果。

23、StyleRig: Rigging StyleGAN for 3D Control over Portrait Images

https://arxiv.org/pdf/2004.00121.pdf arxiv.org

将styleGAN和3DMM结合在一起,优势互补,利用训练好的styleGAN在自监督模式下,学习3DMM输入的特性,实现特定属性的人脸编辑。

24、Guided Variational Autoencoder for Disentanglement Learning

https://arxiv.org/pdf/2004.01255.pdf arxiv.org

这不是一篇GAN的文章,而是VAE。但是GAN和VAE并不分家,所以VAE的文章也一并整理了。一种可以实现解纠缠的VAE算法,在表示学习和元学习中都有着应用价值。

25、S2A: Wasserstein GAN with Spatio-Spectral Laplacian Attention for Multi-Spectral Band Synthesis

https://arxiv.org/pdf/2004.03867.pdf arxiv.org

该文章主要针对卫星图的合成问题,通过时空拉普拉斯频谱注意力机制进行合成。

26、PatchVAE: Learning Local Latent Codes for Recognition

https://arxiv.org/pdf/2004.03623.pdf arxiv.org

这篇文章是一篇VAE的文章,主要贡献点在于提出了一种基于patch的无监督VAE方法,并且利用 bottleneck formulation实现了中间层的表示。

27、Attentive Normalization for Conditional Image Generation

Attentive Normalization for Conditional Image Generation arxiv.org

相较于传统GAN方法,进行了远程依赖关系建模。并且通过注意力归一化(AN)实现远程依赖关系, 具体地,基于输入特征图的内部语义相似度将输入特征图软划分成几个区域,并分别进行归一化。它通过语义对应关系增强了遥远区域之间的一致性。与自我注意力GAN相比,注意力归一化不需要测量所有位置的相关性,因此可以直接应用于大型特征图而无需太多计算负担。

PS:今年已经有好几篇关于attention相关的GAN文章了,这个方向值得研究一下,近期会选择一篇尽心解析。

28、Semantic Image Manipulation Using Scene Graphs

https://arxiv.org/pdf/2004.03677.pdf arxiv.org

图像到语义图再到图像得到处理过程,利用GAN对图像进行编辑。

29、Cross-domain Correspondence Learning for Exemplar-based Image Translation

https://arxiv.org/pdf/2004.05571.pdf arxiv.org

一种图像生成的框架,该框架从给定示例图像的不同域(例如语义分割蒙版或边缘贴图或姿势关键点)的输入中合成出逼真的图像,该合成的图像与示例图像具有相似的风格(文理等)。

30、MixNMatch: Multifactor Disentanglement and Encoding for Conditional Image Generation

https://arxiv.org/pdf/1911.11758.pdf arxiv.org

在FineGAN基础上,通过最小监督,实现输入特征的解纠缠,融合多种输入生成目标图像,可以用在sketch2color,cartoon2img和img2gif应用程序。

31、MineGAN: effective knowledge transfer from GANs to target domains with few images

https://arxiv.org/pdf/1912.05270.pdf arxiv.org

提出了一种知识迁移的生成方法,训练一个 identifies网络,在多个domain中训练选择最接近target domain的部分。实现在target domain的良好泛化。

32、Normalizing Flows with Multi-Scale Autoregressive Priors

https://arxiv.org/pdf/2004.03891.pdf arxiv.org

通过多尺度自回归先验(mAR)在潜在空间中引入基于通道的依赖关系,从而提高了基于流的模型的表示能力。对于具有分离式耦合流动层(mAR-SCF)的模型,mAR先验技术可以更好地捕获复杂多峰数据中的依存关系,提高生成网络的效果。

33、Semi-supervised Learning for Few-shot Image-to-Image Translation

https://arxiv.org/pdf/2003.13853.pdf arxiv.org

半监督方法,应用了循环一致性约束,通过噪声伪标签实现image的domain transfer,原域和目标域的数据都需求较少。

34、Panoptic-based Image Synthesis

https://arxiv.org/pdf/2004.10289.pdf arxiv.org

之前的条件图像合成算法主要依赖于语义图,在多个示例互相遮挡的情况下容易失败。本文提出了一种全景感知图像合成网络,在卷积和上采样层中有效地使用了全景图,以生成以全景图为条件的高保真度和真实感图像,该全景图将语义和实例信息统一起来。该方法在mIoU和detAP的度量标准方面也优于以前的最新方法。

35、Adversarial Latent Autoencoders

https://arxiv.org/pdf/2004.04467.pdf arxiv.org

无监督方式的自动编码网络,通过编解码的方式生成特定属性。可以利用GAN方式进行训练。设计了两种自动编码器:一种基于MLP编码器,另一种基于StyleGAN生成器,将其称为StyleALAE。并且验证两种体系结构的解缠结特性。显示,StyleALAE不仅可以生成质量与StyleGAN相当的1024x1024人脸图像,而且在相同的分辨率下还可以基于真实图像生成人脸重建和操作。

36、Disentangled and Controllable Face Image Generation via 3D Imitative-Contrastive Learning

https://arxiv.org/pdf/2004.11660.pdf arxiv.org

联合3D和对抗网络的精确人脸属性控制方法。文章中展示的效果还是很不错的,值得一读。

37、Deep 3D Portrait from a Single Image

https://arxiv.org/pdf/2004.11598.pdf arxiv.org

与36相同团队的文章,由单张图非监督的人头像3D重构。

38、Neural Head Reenactment with Latent Pose Descriptors

https://arxiv.org/pdf/2004.12000.pdf arxiv.org

也是人脸属性控制的方法,在姿势和表情上都能够有很好的效果。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“GAN20” 可以获取密歇根大学28页最新《GANs生成式对抗网络综述:算法、理论与应用》最新论文-论文专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

arXiv(X依希腊文的χ发音,读音如英语的archive)是一个收集物理学、数学、计算机科学与生物学的论文预印本的网站,始于1991年8月14日。截至2008年10月,arXiv.org已收集超过50万篇预印本;至2014年底,藏量达到1百万篇。在2014年时,约以每月8000篇的速度增加。
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
60+阅读 · 2020年6月25日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
28+阅读 · 2020年4月6日
专知会员服务
60+阅读 · 2020年3月19日
专知会员服务
109+阅读 · 2020年3月12日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
32+阅读 · 2020年1月10日
一文看懂GAN演进图谱
AINLP
8+阅读 · 2019年6月23日
必读!TOP10生成对抗网络GAN论文(附链接)
数据派THU
16+阅读 · 2019年3月24日
必读!生成对抗网络GAN论文TOP 10
全球人工智能
6+阅读 · 2019年3月19日
CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪
PaperWeekly
13+阅读 · 2019年1月22日
2018 年最棒的三篇 GAN 论文
AI科技评论
4+阅读 · 2019年1月14日
2018年有意思的几篇GAN论文
专知
21+阅读 · 2019年1月5日
SRGAN论文笔记
统计学习与视觉计算组
109+阅读 · 2018年4月12日
【深度】Ian Goodfellow 强推:GAN 进展跟踪 10 大论文(附下载)
GAN做图像翻译的一点总结
PaperWeekly
4+阅读 · 2017年12月26日
GAN | GAN介绍(1)
中国科学院网络数据重点实验室
17+阅读 · 2017年7月26日
Meta-Transfer Learning for Zero-Shot Super-Resolution
Arxiv
43+阅读 · 2020年2月27日
Interpretable Adversarial Training for Text
Arxiv
5+阅读 · 2019年5月30日
VIP会员
相关VIP内容
相关资讯
一文看懂GAN演进图谱
AINLP
8+阅读 · 2019年6月23日
必读!TOP10生成对抗网络GAN论文(附链接)
数据派THU
16+阅读 · 2019年3月24日
必读!生成对抗网络GAN论文TOP 10
全球人工智能
6+阅读 · 2019年3月19日
CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪
PaperWeekly
13+阅读 · 2019年1月22日
2018 年最棒的三篇 GAN 论文
AI科技评论
4+阅读 · 2019年1月14日
2018年有意思的几篇GAN论文
专知
21+阅读 · 2019年1月5日
SRGAN论文笔记
统计学习与视觉计算组
109+阅读 · 2018年4月12日
【深度】Ian Goodfellow 强推:GAN 进展跟踪 10 大论文(附下载)
GAN做图像翻译的一点总结
PaperWeekly
4+阅读 · 2017年12月26日
GAN | GAN介绍(1)
中国科学院网络数据重点实验室
17+阅读 · 2017年7月26日
Top
微信扫码咨询专知VIP会员