【导读】生成式对抗网络(Generative Adversarial Networks,GANs)作为近年来的研究热点之一,受到了广泛关注,每年在机器学习、计算机视觉、自然语言处理、语音识别等上大量相关论文发表。密歇根大学Jie Gui博士等人近期发布了《A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications》,包括28页pdf,这篇综述论文对460余篇论文进行了尝试从算法,理论和应用的角度对各种GANs方法进行叙述。
【摘要】生成对抗网络(GANs)是最近的热门研究主题。自2014年以来,人们对GAN进行了广泛的研究,并且提出了许多算法。但是,很少有全面的研究来解释不同GANs变体之间的联系以及它们是如何演变的。在本文中,我们尝试从算法,理论和应用的角度对各种GANs方法进行叙述。首先,详细介绍了大多数GANs算法的动机,数学表示形式和结构。此外,GANs已与其他机器学习算法结合用于特定应用,例如半监督学习,迁移学习和强化学习。本文比较了这些GANs方法的共性和差异。其次,研究了与GANs相关的理论问题。第三,说明了GANs在图像处理和计算机视觉,自然语言处理,音乐,语音和音频,医学领域以及数据科学中的典型应用。最后,指出了GANs未来的开放性研究问题。
1. 概述
对抗生成网络已经成为了一个研究热点。深度学习领域的传奇人物Yann LeCun 在Quora上发帖称:“GANs是过去10年机器学习领域最有趣的想法。”从谷歌学术上可以发现,有大量和GANs相关的论文。例如,2018年大约有11800篇关于GANs的论文。也就是说,2018年,每天大约有32篇论文,每小时有超过一篇论文与GANs有关。GANs有两部分组成:生成器和判别器。这两个模型都由神经网络实现,该系统可以将数据从一个空间映射到另一个空间。生成器尝试捕获真实数据的分布,以生成新的数据。鉴别器通常是一个二进制分类器,要求尽可能准确地从真实的例子中鉴别出生成的例子。GANs的优化是一个最大最小优化问题。优化终止于一个鞍点,该鞍点相对于生成器是最小值,相对于鉴别器是最大值。也就是说,当优化达到Nash equilibrium的目标时,这时可以认为生成器捕获了真实数据的真实分布。本文和先前的关于GANS的综述之间的区别主要有以下几点: 1)GANs的具体应用:将GANs用于诸如图像合成和编辑,音频增强和合成等具体领域。 2)关于GANs的综合评述:最早关于GANs的相关综述是Wang et al.整理的,该论文主要介绍了2017年以前GANs 的发展进程。Z.Wang所作的“Generative adversarial networks: A survey and taxonomy”主要介绍了GANs在计算机视觉领域中的各种变体以及变体的损失函数。
到目前为止,本文是第一个从算法,理论和应用的角度为GANs提供一个全面的综述,并且介绍了GANs的最新的进展。再者,我们不仅关注GANs在图像处理和计算机视觉上的应用,而且关注了GANs在诸如自然语言处理和其他如医疗领域等相关领域中的序列数据上的应用。
2.章节内容
3. 各种相关的GANs算法
在章节3中,我们首先介绍原始的GANs。然后介绍各种具有代表性的变体和GANs的训练,评估方式以及任务驱动的GANs(如下图所示)。
GAN代表性算法
4. GANs的具体应用
GANs是一个强有力的生成式模型,该模型可以用一个随机向量生成看起来完全和真实样例一样的数据。训练过程中我们既不需要明确的知道真实数据的分布也不需要任何数学假设。基于GANs的显著优势,GANs被广泛应用于图像处理,计算机视觉和序列数据上(具体见下表)。
5. GANs的开放研究问题