【深度】GAN与平行视觉|王坤峰副研究员

2017 年 8 月 18 日 中国科学院自动化研究所

计算机视觉是一门研究如何使机器“看”的科学。具体来说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等，实现对物理世界的感知和理解；计算机视觉技术被广泛用于智能监控、智能车辆、工业测量、文档分析、人机交互、视频编码、军事、医疗等领域。但是，王坤峰认为传统视觉研究在数据获取、模型学习与评估上面临着一些挑战和问题：1）应用环境异常复杂，存在昼夜更替、恶劣天气、阴影、目标遮挡、场景混乱等挑战；2）从实际场景中采集和标注大规模多样性数据集费时费力，限制了学习到的视觉模型的泛化性能；3）通过人眼观察来标注数据，容易出错，难以精确标注；4）实际场景不可控不可重复，无法单独分析场景的每个组成因素对视觉算法的影响等。为了解决这些问题，需要探索新的研究思路。本文由自动化所王晓博士主营公众号《德先生》提供，根据王坤峰副研究员在智能自动化学科前沿讲习班第1期上的报告整理，讲解了平行视觉、平行图像、图像生成、图像改善、图像转换等内容。

1.平行视觉

计算机视觉研究的新思路：王坤峰认为借助计算机图形学和虚拟现实技术，构建逼真的人工场景；从中获取大规模多样性的虚拟数据集，自动生成详细且精确的标注信息；将虚拟数据集与实际数据集相结合，对视觉算法进行可控、可观、可重复的计算实验，包括学习与训练、实验与评估。下面左图为实际汽车图像，右图为计算机合成的虚拟汽车图像。可以看出，实际与虚拟很难区分。

虚拟和实际之间是非常相关的，因此可以用虚拟的世界来促进计算机视觉研究。因此王坤峰等人提出了平行视觉理论，平行视觉理论基于王飞教授提出的平行系统理论和ACP方法，把这个理论推广到视觉计算领域，并提出了这个虚实互动的视觉计算方法。

平行视觉的ACP理论 = 人工场景 + 计算实验 + 平行执行

其中，

A：利用人工场景来模拟和表示复杂挑战的实际场景。

C：通过计算实验进行视觉算法的设计与评估，包括“学习与训练”、“实验与评估”两种操作模式，计算实验可控可重复。

P：将视觉系统在实际场景和人工场景中平行执行，进行在线优化，以交互反馈方式实现对复杂环境的智能感知与理解。

平行视觉团队构建了虚拟城市场景，参照中关村区域的道路交通，构建逼真的虚拟现实（VR）场景，生成大规模多样化的虚拟图像和视频数据集，例如下图所示的大规模虚拟图像及其标注信息，可用于智能交通监控和智能车辆研究。

甚至可以在每帧虚拟图像中随机改变道路上车辆的颜色，以增加虚拟图像的多样性，而这在实际场景中是不可能做到的。我们可以控制人工场景中的目标外观和运动、光照和天气条件、摄像机高度和视角等因素，生成多样化的虚拟图像。我们的实验结果已经表明，采用虚实互动的平行视觉方法，提高了目标检测器的精度和鲁棒性。

平行视觉团队构建特定场景的增强现实（AR）场景，在实际背景图像上叠加虚拟行人，虚拟人自然地行走不依赖真实标注数据，完全利用虚拟数据进行目标检测与跟踪研究。

2.平行图像

平行图像（Parallel imaging）是一种新的图像生成理论框架。作为平行视觉的一个分支，平行图像提供平行视觉研究需要的图像数据。平行图像的核心单元是软件定义的人工图像系统。从实际场景中获取特定的图像“小数据”，输入人工图像系统，解析和吸纳实际图像的特点，生成大量新的人工图像数据。这些人工图像数据和特定的实际图像数据一起构成解决复杂视觉问题需要的平行图像“大数据”集合，用于视觉模型的学习与评估研究。平行图像采用实际图像“小数据”→平行图像“大数据”→特定“小知识”的技术流程，如下图所示。

人工图像的实现方法主要有：人工场景构建和图形渲染、图像风格迁移、生成式模型等。本报告以下部分主要关注GAN，它是生成式模型的研究前沿。

3.图像生成：从GAN到BEGAN

1) GAN

王坤峰认为GAN能够从随机噪声生成图像样本，是平行图像的一种重要实现方法。Ian Goodfellow等人于2014年提出GAN，主要用于图像生成；经过三年发展，出现了EBGAN（Energy-based GAN）、Wasserstein GAN、BEGAN (Boundary Equilibrium GAN)等改进模型，模型的训练稳定性和生成图像样本的逼真性得到显著提高。

GAN, 2014

BEGAN, 2017

GAN基本原理:主要就是一个生成器和判别器，构成了一个整体模型，生成器和判别器的目标存在对抗。判别器的目标，为了正确区分真实数据X和生成器G生成的伪数据G(z)；生成器G的目标是从随机噪声z生成图像G(z)，使得G(z)能够最大程度地误导判别器。这两个目标相互对抗，因此就可以建模成一个极小极大博弈问题。

2)EBGAN

2016年出现了一种衍生模型，基于能量的GAN，采用了一个自编码器来表示判别器。从能量的角度，来认识这个判别器。作者认为如果是真实图像X所对应的一个空间，这个判别器输出一个比较小的能量，但是对于伪图像G(z)对应的空间，判别器应该输出一个比较大的能量。从能量角度去解释判别器，有利于采用更宽泛的结构和损失函数来设计GAN。

3)WGAN

作者认为如果真实样本和伪样本的分布空间交叠很小，判别器能够轻易地区分它们，采用JS散度来衡量真实分布pdata和生成器分布pg之间的距离，可能导致生成器的梯度消失问题。WGAN没有改变模型结构，但是采用Earth-Mover距离来度量pdata和pg的距离，使训练更稳定。作者还发现Earth-Mover距离，或者叫Wasserstein估计，是一个判断模型是否收敛的比较好的指标。当你随着训练每次迭代之后，这个损失函数就是可以认为是对Wasserstein距离的一个估计，随着估计下降的同时，生成图像的质量越来越高，这个发现非常重要。

4)BEGAN

BEGAN (Berthelot等, 2017)即边界均衡的GAN，针对GAN训练难、控制生成样本多样性难、平衡判别器和生成器收敛难等问题，提出了改善方法。作者借鉴了EBGAN和WGAN各自的优点，使用简单的模型结构，在标准的训练步骤下取得了令人惊艳的效果。他还能在实际图像之间做一个非常自然的过渡。从一种人脸到另一种人脸非常平滑的过渡。王坤峰认为BEGAN的主要贡献是：提出一种简单、鲁棒的GAN架构，快速稳定收敛的标准训练过程；提出一种均衡概念，平衡判别器和生成器；提出一种权衡图像多样性和视觉质量的新方法；提出一种衡量收敛的近似方法。BEGAN能够生成128×128分辨率的高质量人脸图像，包含多样化的姿态、表情、性别、肤色、光照射、胡须等。与之前的GAN模型相比，生成图像的视觉质量显著提升。

4.图像改善：SimGAN

王坤峰认为SimGAN与平行视觉的思想是一致的，标记大规模数据集非常昂贵和耗时，随着计算机视觉和图形学快速发展，仿真图像能够模拟实际图像，并且自动提供标记信息，用于视觉模型的学习。尽管计算机图形学得到快速发展，生成的仿真图像仍然不够逼真，与真实图像存在分布上的差距（称为数据集偏移）。可能使得学习到的视觉模型过拟合到不逼真的仿真图像细节，影响实际应用中的泛化能力。

但是SimGAN可以增加数据集的逼真性。SimGAN利用对抗损失来训练Refiner，对仿真图像进行改善。将无标记信息的真实图像和改善后的仿真图像作为判别器的输入来学习判别器，判别器目的是正确判断来源数据是真实图像还是改善后的仿真图像。

为了保持仿真图像的注释信息不变，在对抗损失中加入一个正则化项，惩罚原仿真图像和改善后仿真图像之间的变化。Refiner模型的损失函数与判别器的目标函数，形成了对抗，体现在损失函数中符号的正负上。SimGAN采用了两个训练技巧。一个是局部对抗损失：对整个图像来训练判别器可能会过于强调某些图像特征，引入噪点，因此采用将输入图像分块来训练判别器，鼓励每一个局部图像块都逼真。另一个是使用历史Refined图像来更新判别器，使训练过程更稳定。

5.图像转换：CycleGAN

CycleGAN是一种通用的无配对图像转换方法。给定一个源领域图像集和一个目标领域图像集，学习两个领域之间的潜在关系，将源领域图像转换为目标领域图像。CycleGAN和前面几种模型不太一样的地方是：有两个生成器和两个判别器，利用了循环一致性约束，也就是一种正则化的约束。CycleGAN的对抗损失增加了循环一致性损失函数，作者认为仅仅是对抗损失不能保证学习到的生成器将源图像映射到结构不变的目标图像，可能导致模式塌陷。通过限制源图像依次经过生成器G和F最终得到的图像和源图像的差异，即源图像和重建图像的差异，保证生成器生成的图像对应目标图像域中的配对图像，使得重建后与源图像差异尽量小，这就是循环一致性的约束。CycleGAN损失函数整体目标,是一种极小极大博弈论问题。CycleGAN应用非常广，可以对交通场景中语义分割的图像预测实际图像的样子，精度比较高，但是不如pix2pix（它采用有配对训练方法）。同时还可以对谷歌卫星地图进行转换。CycleGAN是一种通用的图像到图像转换方法，应用范围包括：风格迁移、物体转换、季节转换、从绘画生成真实图片、图像增强等。

CycleGAN也有一定的局限性，不太能够适应几何形变程度比较大的转换，例如从狗到猫的转换，因为这个外观结构变化确实很大。但是在平行视觉研究中，我们不太希望将狗转换为猫，更希望能够对图像中的光照、天气以及季节风格进行转换，提高图像的逼真性和多样性。另外，CycleGAN不是针对视频的转换，它只是按照每一帧图片进行转换，没有考虑到相邻帧之间的相关性。这些问题还需要进一步研究。

6.结束语

平行系统理论和ACP方法是中科院自动化研究所复杂系统管理与控制国家重点实验室王飞跃研究员提出的一种解决复杂系统建模、分析与控制的重要成果，可以应用到许多复杂系统的研究中。王坤峰的这个报告主要是关于计算机视觉，视觉系统本质上是一个复杂系统，它的应用场景很复杂，并不是一个简单的系统，因此可以与平行系统理论结合起来做研究，也就是平行视觉理论。

平行视觉在物理和网络空间大数据的驱动下，结合计算机图形学、虚拟现实、机器学习、知识自动化等技术，利用人工场景/人工图像、计算实验、平行执行等理论和方法，建立复杂环境下视觉感知与理解的理论和方法体系。

在平行视觉的基础上，我们又提出了平行图像。平行图像是平行视觉的一个分支，其核心是利用人工图像来扩展实际图像：从实际场景中获取特定的图像“小数据”，输入人工图像系统，生成大量新的人工图像数据，构成虚实结合的平行图像“大数据”，应用于平行视觉研究。

最后，王坤峰认为GAN是一种重要的人工图像生成方法，在图像生成、图像改善、图像转换等方面具有广阔的应用前景。我们相信GAN能够与平行视觉结合起来，促进平行视觉的发展。希望本报告能够给相关领域研究人员带来一些启发。