综述:基于GAN的图像翻译模型盘点

2019 年 9 月 2 日 GAN生成式对抗网络

来源: PaperWeekly

图像翻译(Image translation)是将一个物体的图像表征转换为该物体的另一种图像表征,也就是找到一个函数能让 A 域图像映射到 B 域内,其可以应用于许多的实际问题上,如风格迁移,属性迁移,提升图像分辨率等(如图 1 所示)。
随着生成式对抗网络(GAN)的研究逐渐走向成熟,基于 GAN 的图像翻译模型的研究也越来越火热,如 Pix2Pix, CycleGAN, BicycleGAN, MUNIT, DRIT 等。本文针对近年来基于 GAN 的图像翻译模型进行简短汇总。
▲ 图1. 图像翻译应用(来源: BicycleGAN)


有监督的图像翻译


最开始接触图像翻译是从 Phillip Isola 等人提出的基于 CGAN 的有监督图像翻译模型(Pix2pix)[1] 入手的,在这里也非常推荐想要入坑该方向的“小可爱”以这篇论文为起点。
有监督很好理解就是我们训练时采用的训练集是成对图片,Pix2Pix 模型以 GAN 为基础采用端到端架构,其中生成器架构中引入跳连接以便能保留图像潜层结构,其输入是原域图像 x,输出是翻译后的目标域图像 G(x),原域图像和真/伪目标域图像分别结合后作为鉴别器的输入,鉴别器输出分类结果并和生成器产生对抗。

整个模型的架构如图 2 所示,在具体训练中采用了重建损失(y,G(x)),对抗损失来引导模型。
▲  图2. Pix2Pix架构


但是 Pix2Pix 存在的问题是由于在训练模型时使用原域-目标域一对一映射而导致模型的多样性很差,随后 Jun-Yan Zhu 等人提出了 BicycleGAN [2] 来解决这一问题,BicycleGAN 通过引入潜层编码,约束输出和潜层编码的双射一致性来提高模型的多样性,其架构如图 3 所示。


▲ 图3. BicycleGAN架构

BicycleGAN 结合了 cVAE-GAN 以及 cLR-GAN 来约束输出和潜层编码的双射一致性,其中 cVAE-GAN 在生成器中加入了目标域图像 B 的潜层编码信息来辅助图像翻译,并通过 KL 损失强迫潜层信息满足高斯分布从而最终在测试时直接从高斯分布中采样即可生成多样的输出结果。


但该模型存在的问题是 KL 损失难以优化导致最终采样有困难,cLR-GAN 是在生成器中引入满足高斯分布的潜层变量来提高模型多样性,该模型存在的问题是由于生成器中的潜层变量的随机采样的,因此生成结果不一定和目标域图像 B 一致,也就是完全忽略了成对图像带来的优势。因此作者结合了两个模型来取长补短,最终提高翻译效果。


无监督的图像翻译


有监督的图像翻译模型存在的最大问题是现实情况中压根没有那么多的成对数据集来帮助训练,因此最近有越来越多的基于无监督的图像翻译模型被提出,其中最为经典的就是 CycleGAN [3],其设计了循环一致性来代替之前的重建损失从而实现图像翻译。


作者定义了两个生成器 G 和 F,两个鉴别器 Dx 和 Dy,生成器 G 的目的是将 X 域的图像转化为 Y 域,而 F 的目的是将 Y 域的图像转化为 X 域,其中鉴别器 Dx 是用于判断由 F 生成的 X 域图像是否是 X 域内的真实图像,Dy 是判断由 G 生成的 Y 域图像是否是 Y 域内的真实图像,模型架构如图 4 所示。


 图4. CycleGAN架构


近期的研究提出可以通过加入第三个网络 Siamese 来代替循环一致性损失,从而降低模型的复杂度以及训练成本,Siamese 网络用于学习图像高级语义特征从而保证翻译后的图像与原域图像相似,有兴趣的读者可以参考 TraVeLGAN [4]


另外一类比较经典的图像翻译模型就是对全局图像进行内容和属性编码,通过交换其属性编码来实现图像翻译,其中比较有代表性的模型如 DRIT [5],MUNIT [6]

这里以 DRIT 为例简单介绍一些这类方法,DRIT 中也是通过建立循环一致性来约束生成器,和 CycleGAN 不同的是 DRIT 利用编码器将图像分解为属性编码和内容编码,之后交换原域和目标域的属性编码来翻译图像,最后将翻译的结果再经过一次属性交换来生成原域图像 ( ) ,通过优化   和 x 的 L1 损失来约束生成器,其架构如图 5 所示。


 图5. DRIT架构


当然除了上述我所总结的几个模型外,图像翻译领域内还有非常多有趣的模型可以深入了解,如 StarGAN [7],CollaGAN [8] 等,最近通过引入注意力机制来引导图像翻译的模型也越来越多,如 Selection GAN [9],CSA [10] 等。总之,图像翻译模型及其变种可以解决很多非常有意思的任务,有兴趣的读者可以多多关注该领域,希望今后能有更多有趣的模型被提出。

参考文献


[1] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017. 2, 3, 5, 6, 7, 8, 11 
[2] Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A Efros, Oliver Wang, and Eli Shechtman. Toward multimodal image-to-image translation. In Advances in Neural Information Processing Systems, 2017. 2
[3] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017. 1, 2, 3, 4, 5, 8 
[4] Matthew Amodio, Smita Krishnaswamy. TraVeLGAN: Image-to-image Translation by Transformation Vector Learning. In CVPR, 2019.2
[5] Hsin-Ying Lee, Hung-Yu Tseng, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Yang. Diverse image-to-image translation via disentangled representations. In ECCV, 2018. 1, 2, 3, 4, 5, 6
[6] Xun Huang, Ming-Yu Liu, Serge Belongie, and Jan Kautz. Multimodal unsupervised image-to-image translation. In ECCV, 2018. 1, 2, 3, 4, 6, 7, 8 
[7] Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo. StarGAN: Unifified generative adversarial networks for multi-domain image-to-image translation. arXiv preprint, 1711, 2017.
[8] Dongwook Lee, Junyoung Kim, Won-Jin Moon, Jong Chul Ye. CollaGAN: Collaborative GAN for Missing Image Data Imputation. In CVPR, 2019.4
[9] Hao Tang, Dan Xu. Multi-Channel Attention Selection GAN with Cascaded Semantic Guidance for Cross-View Image Translation.In CVPR, 2019.4
[10] Hongyu Liu, Bin Jiang,Yi Xiao,Chao Yang. Coherent Semantic Attention for Image Inpainting. In ICCV, 2019.7


高质量延伸阅读

☞ OpenPV平台发布在线的ParallelEye视觉任务挑战赛

【学界】第1届“智能车辆中的平行视觉”研讨会成功举行

【学界】生成式对抗网络:从生成数据到创造智能

【学界】OpenPV:中科院研究人员建立开源的平行视觉研究平台

【学界】基于平行视觉的特定场景下行人检测

【学界】ParallelEye:面向交通视觉研究构建的大规模虚拟图像集

【CFP】Virtual Images for Visual Artificial Intelligence

【最详尽的GAN介绍】王飞跃等:生成式对抗网络 GAN 的研究进展与展望

【智能自动化学科前沿讲习班第1期】王飞跃教授:生成式对抗网络GAN的研究进展与展望

【智能自动化学科前沿讲习班第1期】王坤峰副研究员:GAN与平行视觉

【重磅】平行将成为一种常态:从SimGAN获得CVPR 2017最佳论文奖说起

【平行讲坛】平行图像:图像生成的一个新型理论框架

【学界】基于生成对抗网络的低秩图像生成方法

【学界】Ian Goodfellow等人提出对抗重编程,让神经网络执行其他任务

【学界】六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步

【资源】T2T:利用StackGAN和ProGAN从文本生成人脸

【学界】 CVPR 2018最佳论文作者亲笔解读:研究视觉任务关联性的Taskonomy

【业界】英特尔OpenVINO™工具包为创新智能视觉提供更多可能

【学界】ECCV 2018: 对抗深度学习: 鱼 (模型准确性) 与熊掌 (模型鲁棒性) 能否兼得 

【学界】何恺明组又出神作!最新论文提出全景分割新方法

登录查看更多
21

相关内容

专知会员服务
107+阅读 · 2020年5月21日
基于深度学习的手语识别综述
专知会员服务
45+阅读 · 2020年5月18日
【天津大学】风格线条画生成技术综述
专知会员服务
31+阅读 · 2020年4月26日
机器翻译深度学习最新综述
专知会员服务
96+阅读 · 2020年2月20日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
31+阅读 · 2020年1月10日
注意力机制模型最新综述
专知会员服务
260+阅读 · 2019年10月20日
CVPR 2019 开源论文 | 基于翻译向量的图像翻译
PaperWeekly
3+阅读 · 2019年10月13日
综述 | 语义分割经典网络及轻量化模型盘点
计算机视觉life
51+阅读 · 2019年7月23日
万字综述之生成对抗网络(GAN)
PaperWeekly
43+阅读 · 2019年3月19日
CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪
PaperWeekly
13+阅读 · 2019年1月22日
生成对抗网络在图像翻译上的应用【附PPT与视频资料】
人工智能前沿讲习班
7+阅读 · 2018年11月28日
CMU论文解读:基于GAN和VAE的跨模态图像生成
PaperWeekly
9+阅读 · 2018年8月20日
StarGAN-多领域图像翻译
CreateAMind
4+阅读 · 2017年12月26日
GAN做图像翻译的一点总结
PaperWeekly
4+阅读 · 2017年12月26日
附资料包|GAN发展历程综述:送你最易入手的几个架构
七月在线实验室
6+阅读 · 2017年9月5日
Image Segmentation Using Deep Learning: A Survey
Arxiv
43+阅读 · 2020年1月15日
Arxiv
4+阅读 · 2019年8月7日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Arxiv
5+阅读 · 2019年4月8日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
19+阅读 · 2018年5月17日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
8+阅读 · 2018年4月12日
VIP会员
相关VIP内容
专知会员服务
107+阅读 · 2020年5月21日
基于深度学习的手语识别综述
专知会员服务
45+阅读 · 2020年5月18日
【天津大学】风格线条画生成技术综述
专知会员服务
31+阅读 · 2020年4月26日
机器翻译深度学习最新综述
专知会员服务
96+阅读 · 2020年2月20日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
31+阅读 · 2020年1月10日
注意力机制模型最新综述
专知会员服务
260+阅读 · 2019年10月20日
相关资讯
CVPR 2019 开源论文 | 基于翻译向量的图像翻译
PaperWeekly
3+阅读 · 2019年10月13日
综述 | 语义分割经典网络及轻量化模型盘点
计算机视觉life
51+阅读 · 2019年7月23日
万字综述之生成对抗网络(GAN)
PaperWeekly
43+阅读 · 2019年3月19日
CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪
PaperWeekly
13+阅读 · 2019年1月22日
生成对抗网络在图像翻译上的应用【附PPT与视频资料】
人工智能前沿讲习班
7+阅读 · 2018年11月28日
CMU论文解读:基于GAN和VAE的跨模态图像生成
PaperWeekly
9+阅读 · 2018年8月20日
StarGAN-多领域图像翻译
CreateAMind
4+阅读 · 2017年12月26日
GAN做图像翻译的一点总结
PaperWeekly
4+阅读 · 2017年12月26日
附资料包|GAN发展历程综述:送你最易入手的几个架构
七月在线实验室
6+阅读 · 2017年9月5日
相关论文
Image Segmentation Using Deep Learning: A Survey
Arxiv
43+阅读 · 2020年1月15日
Arxiv
4+阅读 · 2019年8月7日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Arxiv
5+阅读 · 2019年4月8日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
19+阅读 · 2018年5月17日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
8+阅读 · 2018年4月12日
Top
微信扫码咨询专知VIP会员