来源:自动化学报
低秩图像:低秩纹理结构是图像处理领域中具有重要几何意义的结构,通过提取低秩纹理可以对受到各种旋转、扭曲变换干扰的图像进行有效校正。
对于计算机视觉研究者来说,这是一个幸福的时代。因为我们得以触碰视觉界的两场革命,一个是压缩感知,另一个是深度学习,低维模型和深度模型的螺旋式发展为我们带来了诸多的启示,研究者们也一直在尝试透过低维结构去探索高维空间中的秘密。本文以视觉图像为例,探讨低维模型与深度模型是如何从不同的角度走到了一起,并且去攻克同一个问题:高维数据的信息提取。
众所周知,深度学习对大量标签数据的依赖显而易见,启发式的有监督学习也成为抑制深度学习纵向发展的一个潜在要素。机器学习领域一直都在探索使用尽量少的标签数据,希望实现从监督式学习到半监督式学习,再到无监督式学习的转化。压缩感知充分利用了数据的稀疏性,使我们利用较少的数据就可以对原始数据进行重构。压缩感知与低秩模型不但与现实世界中的很多物理模型相符合,而且也给求解这些问题带来了理论上的保证,因此在很多领域都得到了成功的应用。
从视觉任务的结果来看,压缩感知和深度学习都让我们能够在像素级别上处理图像的全局信息。无论是来自数学理论的压缩感知低维模型,还是来自海量数据与训练网络的深度神经网络模型,两者的结果都可以得到同样强大且可扩展的算法,并且其流程与结构也有很多相似之处,甚至可以用低维模型来解释深度神经网络理论的有效性。由此可以看出,压缩感知对于深度学习具有一定的理论指导意义。如果能将压缩感知算法与神经网络、深度模型以及当今GPU强大的并行处理能力结合起来去解决相关的视觉问题,特别是进行深度生成式模型的研究,对于提高算法的运行效率至关重要,计算成本也会大幅降低。
图1 利用TILT 模型进行图像校正的例子
由于生成式对抗网络(GAN)能够学习图像、声音和数据中的丰富分布,而这些分布通常因为其具有明确的相似性,所以很难去建模。与传统模型相比,GAN模型生成数据的复杂度与维度线性相关。因此,生成式对抗网络模型对于高维结构的表示与处理有很大意义。而低秩表示模型不仅具有严格的理论基石,还在数据恢复、特征提取、图像修复等方面表现出了优良特性。近年来,基于深度学习和稀疏表示学习的方法相互结合,各自发挥其相应模块的优势,形成了各种策略或特性下的深度神经网络模型,应用于各种视觉任务。
本文将低秩转换模型与生成式对抗网络模型相融合,从转换思想过渡到生成思想,从转换模型过渡到生成模型,意在找到一种由原始图像直接生成得到低秩纹理图像的机制。我们尝试利用生成式对抗网络去进行低秩纹理图像的修复,从而达到对于倾斜图像的校正目的,努力探寻隐藏在高维样本空间下的低维结构信息。
图2 LR-GAN 的网络结构示意图。((a) LR-GAN 网络的整体算法流程; (b) 生成器网络负责生成原始图像的低秩纹理图像;(c) 判别器网络将生成器生成的图像和TILT 算法转换之后的图像进行对抗学习; (d) 为在训练后期加入的低秩梯度过滤层)
针对受到各种变换干扰的低秩图像校正问题,利用生成式框架来缓解图像中不具明显低秩特性区域的校正结果不理想的问题,提出了一种非监督式的由图像生成图像的低秩纹理生成对抗网络(Low-rank Generative Adversarial Network,LR-GAN)算法(图2)。LR-GAN网络由两个主要模块组成:生成器网络和加入TILT的判别器网络。首先,该算法将传统的无监督学习的低秩纹理映射算法(Transform Invariant Low-rank Textures,TILT) (图1)作为引导加入到网络中来辅助判别器,使网络整体达到无监督学习的效果,并且使低秩对抗对在生成网络和判别网络上都能够学习到结构化的低秩表示。其次,为了保证生成的图像既有较高的图像质量又有相对较低的秩,同时考虑到低秩约束条件下的优化问题不易解决(NP难问题),在经过一定阶段TILT的引导后,设计并加入了低秩梯度滤波层来逼近网络的低秩最优解。通过在MNIST,SVHN和FG-NET这三个数据集上的实验,并使用分类算法评估生成的低秩图像质量,实验结果表明,本文提出的LR-GAN算法均取得了较好的生成质量与识别效果(图3)。
图3 在MNIST、SVHN、FG-NET 数据集上的生成过程
在未来研究中,可以结合不同图像问题的特性,适当地引入低秩约束来增强其低秩性,从而达到更理想的生成效果。另外,对于该生成式网络自身的不稳定性以及泛化能力等将做相关的探讨与研究,进一步完善算法。同时,LR-GAN作为GAN的衍生模型,除了是一种有效的生成式模型,也是一个比较简单的平行系统。并且,其作为基于深度学习的底层视觉问题,我们有理由认为它将能够充分融入到平行视觉的研究体系中,助力于提升视觉模型的泛化能力。希望本文的工作有助于启发对深度学习与压缩感知螺旋式发展的持续探索。
引用格式
赵树阳, 李建武. 基于生成对抗网络的低秩图像生成方法. 自动化学报, 2018, 44(5): 829-839.
作者简介
赵树阳,北京理工大学计算机学院硕士研究生。主要研究方向为计算机视觉,图像处理与机器智能。
E-mail: zsyprich@bit.edu.cn
李建武,博士,北京理工大学计算机学院副教授。主要研究方向为计算机视觉,图像处理,超分辨率图像重建技术。本文通信作者。
E-mail: ljw@bit.edu.cn
☞【学界】OpenPV:中科院研究人员建立开源的平行视觉研究平台
☞【学界】ParallelEye:面向交通视觉研究构建的大规模虚拟图像集
☞【CFP】Virtual Images for Visual Artificial Intelligence
☞【最详尽的GAN介绍】王飞跃等:生成式对抗网络 GAN 的研究进展与展望
☞【智能自动化学科前沿讲习班第1期】王飞跃教授:生成式对抗网络GAN的研究进展与展望
☞【智能自动化学科前沿讲习班第1期】王坤峰副研究员:GAN与平行视觉
☞【重磅】平行将成为一种常态:从SimGAN获得CVPR 2017最佳论文奖说起
☞【学界】Ian Goodfellow等人提出对抗重编程,让神经网络执行其他任务
☞【学界】六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步
☞【资源】T2T:利用StackGAN和ProGAN从文本生成人脸