图像和视频生成的目的是从随机噪声或基于特定条件合成高保真度的视觉数据。尤其是生成对抗网络(GANs)的最新进展,在各种图像和视频生成任务中取得了显著的成功,展现了深度神经网络捕捉视觉数据的高维分布的强大能力。这方面的进展显著推动了生成人工智能(AI)的发展,受到了广泛的公众关注。尽管在图像和视频合成方面取得了巨大的成功,但仍存在一些问题需要仔细探索。本论文旨在找出这一领域的剩余挑战,并通过先进的深度学习技术提出解决方案。这构成了四个主要研究内容。
数据是深度学习的本质。对于图像和视频生成及其下游应用而言,高质量的数据集是非常可取的。此外,研究人员通常非常关注提高生成质量,却忽略了对由生成数据引起的问题(如“Deepfakes”)的防范。与其他研究不同,本论文的第一项尝试是构建一个有用的面部视频数据集,以促进后续研究,并通过设计更好的视频操纵方法来防止生成数据的负面影响。介绍了DeeperForensics-1.0,这是一个用于现实世界面部伪造检测的大规模视频数据集。正在进行的努力是应对“Deepfakes”,它引发了合法的担忧,尤其是在可能被滥用和误用方面。它代表了同类中最广泛的数据集之一,由总共1760万帧构成的60,000个视频组成。应用了广泛的现实世界扰动,以获得更具挑战性、规模更大、多样性更高的基准。DeeperForensics-1.0中的所有源视频都是精心收集的,假视频是由新提出的端到端面部交换框架生成的。生成视频的质量超过了现有数据集中的视频,经用户研究验证。基准特点是一个隐藏的测试集,其中包含高欺骗性分数的操纵视频。进行了全面研究,评估了五个代表性的检测基线,并对不同设置进行了彻底的分析。这项工作验证了设计更好的视频操纵方法可以协助面部取证。
在确保了潜在的对策之后,兴趣转移到提出一个对各种生成任务几乎没有质量牺牲的统一框架,这对现实世界应用具有很高的实用价值。鉴于不同任务的不同性质,实现这一目标并非易事。因此,之前的研究通常针对特定形式的应用开发定制模块。本论文设计了一个简洁但容易适应各种任务的双流图像到图像转换(TSIT)框架。论文揭示了规范化层的重要性,并精心设计了一个带有新提出的特征变换的双流生成模型,以粗到细的方式。这允许网络有效捕获和融合多尺度语义结构信息和风格表达,使TSIT能够适应无监督和监督设置下的各种任务。不需要额外的约束(例如,循环一致性),从而贡献了一种非常干净简单的方法。使得具有任意风格控制的多模态图像合成成为可能。系统研究将TSIT与最先进的任务特定基线进行了比较,验证了其在感知质量和量化评估中的有效性。
除了图像和视频生成的实践角度上的进展外,本论文进一步希望通过更基础和理论的研究解决剩余问题。本论文的第三项工作是焦频损失(FFL),这是一种新颖的频率级损失函数,直接在频率域优化生成模型。该损失与不同类别、网络结构和任务的多样化基线的现有空间损失相辅相成。尽管得益于生成模型的发展,图像重建和合成取得了显著的成功,但在真实和生成图像之间,尤其是在频率域,仍可能存在差距。论文表明,缩小频率域中的差距可以进一步提高图像重建和合成质量。所提出的FFL允许模型适应性地关注难以合成的频率分量,降低容易合成的分量的权重。这一目标函数为抵抗神经网络固有偏见导致的重要频率信息丢失提供了很大的阻力。论文证明了FFL在提高VAE、pix2pix和SPADE等流行模型的感知质量和量化性能方面的多功能性和有效性。其在StyleGAN2上的潜力进一步展示。
通过实践和理论方面的努力,已经尝试提高合成数据的保真度和多样性。然而,当前的生成模型,如GANs,通常需要大量的训练数据才能充分发挥其能力,而有时收集足够的数据样本是不可行的。在保留合成质量的同时,使用较少的数据训练生成模型仍然未被充分探索。论文进一步介绍了适应性伪增强(APA),这是一种用于有限数据下GAN训练的简单而有效的策略。最近的研究表明,由于鉴别器过拟合,这是阻碍生成器收敛的根本原因,因此在有限数据下训练GANs仍然是一项艰巨的任务。所引入的APA通过使用生成器本身来增强真实数据分布,用生成的图像适应性地欺骗鉴别器,鼓励生成器和鉴别器之间的健康竞争。作为一种替代依赖于标准数据增强或模型规范化的现有方法,APA通过减轻过拟合来提高训练效果。广泛的实验展示了APA在低数据环境下的有效性。提供了理论分析,以检验这种新训练策略的收敛性和合理性。APA简单有效。它可以无缝添加到强大的当代GANs,如StyleGAN2,且计算成本可忽略不计。
这篇论文最后还讨论了其他相关话题,并展望了图像和视频生成领域的潜在未来工作,例如视频生成的更高级话题、现有和未来对新型强大扩散模型(DM)的努力,为这一研究领域提供了更多见解。