使用CNN生成图像先验实现场景的盲图像去模糊

2018 年 6 月 14 日 统计学习与视觉计算组

论文链接：https://arxiv.org/abs/1803.03363

CVPR2018

摘要

提出了一种基于数据驱动的判别先验的盲图像去模糊方法。此项工作是基于这样一个事实:一个好的图像先验应该有利于清晰的图像而不是模糊的图像。在本文中，我们将图像先验表示为一个二值分类器，它可以通过一个深度卷积神经网络 ( CNN ) 来实现。学习到的先验能够区分输入图像是否清晰。嵌入到最大后验 ( MAP ) 框架中之后，它有助于在各种场景 (包括自然图像、人脸图像、文本图像和低照明图像) 中进行盲图去模糊。然而，由于去模糊方法涉及非线性 CNN，很难将模糊的方法与已有的图像进行优化。为此，本文提出了一种基于半二次分割法和梯度下降法的数值求解方法。此外，该模型易于推广到非均匀去模糊任务中。定性和定量的实验结果表明，与当前最优的图像去模糊算法以及特定领域的图像去模糊方法相比，该方法具备有良好的性能。

简介

盲图去模糊是计算机视觉与图像处理中非常重要的问题，它的目标是从模糊的输入中恢复潜在的图像。当模糊形状在空间上具有不变性时，模糊过程可以由（1）式建模：

（1）

其中⊗代表的是卷积算子，B、I、k 和 n 分别代表模糊图像、隐藏的清晰图像、模糊核以及噪声。式（1）中的问题是不适定性，因为 I 和 k 都是未知的，存在无穷多个解。为了解决这个问题，关于模糊核和图像的额外约束和先验知识都是必需的。

图 1：一个去模糊的例子。本文提出了一个判别图像先验，它是从一个深度二分类网络中学习得到的，并用于图像去模糊。

对于图（a）是盲图B，其清晰图像是I。

图（b）是【38】表示梯度算子，图（c）是【27】表示黑暗的通道，以及图（d）是我们提出的分类器。

近年来去模糊方法的主成功主要来自于有效的图像先验和边缘预测策略的发展。然而，基于边缘预测的方法通常涉及启发式的边缘选择步骤，当边缘不可用时，它的性能就不太好。为了避免启发式的边缘选择步骤，人们提出了很多基于自然图像先验的算法，包括稀疏性归一化（normalized sparsity），L0 梯度和暗通道先验（dark channel prior）。这些算法在一般的自然图像上表现良好，但是并不适用于特殊的场景，例如文本、人脸以及低光照图像。大多数上述的图像先验都有相似的效果，它们更加适用于清晰的图像，而不是模糊的图像，这种属性有助于基于 MAP（最大后验）的盲图像去模糊方法的成功。然而，大多数先验都是手工设计的，它们主要是基于对特定图像统计的有限观察。这些算法不能很好地泛化来处理自然环境中的多种场景。所以，开发能够使用 MAP 框架来处理不同场景的图像先验是很有意义的。

为达到这个目的，研究者将图像先验表示为能够区分清晰图像和模糊图像的二值分类器。具体来说，他们训练深度卷积神经网络来分类模糊图像 (标记为 1 ) 和清晰图像 (标记为 0 )。由于基于 MAP（最大后验）的去模糊方法通常使用 coarse-to-fine（由粗到精）策略，因此在MAP 框架中插入具有全连接层的 CNN 无法处理不同大小的输入图像。为了解决这个问题，他们在 CNN 中采用了全局平均池化层，以允许学习的分类器处理不同大小的输入。此外，为了使分类器对不同输入图像尺寸具有更强的鲁棒性，他们还采用多尺度训练策略。然后将学习到的 CNN 分类器作为 MAP（最大后验）框架中潜在图像对应的正则项。如图 1 所示，本文提出的图像先验比目前最先进的人工设计的先验更具区分性。

然而，使用学习到的图像先验去优化这个去模糊方法是很困难的，因为这里涉及到了一个非线性 CNN。因此，本文提出了一种基于半二次方分裂法（half-quadratic splitting method）和梯度下降算法的高效数值算法。这个算法在实际使用中可以快速地收敛，并且可以应用在不同的场景中。此外，它还可以直接应用在非均匀去模糊任务中。

贡献

提出了一种高效判别图像先验，它可以通过深度卷积神经网络学习到，用于盲图像去模糊。为了保证这个先验（也就是分类器）能够处理具有不同大小的输入图像，研究者利用全局平均池化和多尺度训练策略来训练这个卷积神经网络。
将学习到的分类器作为 MAP（最大后验）框架中潜在图像对应的正则化项，并且提出了一种能够求解去模糊模型的高效优化算法。
研究者证明，与当前最佳算法相比，这个算法在广泛使用的自然图像去模糊基准测试和特定领域的去模糊任务中都具备有竞争力的性能。
研究者展示了这个方法可以直接泛化到非均匀去模糊任务中。

二分类网络

我们的目标是通过卷积神经网络来训练一个二分类器。这个网络以图像作为输入，并输出一个标量数值，这个数值代表的是输入图像是模糊图像的概率。因为我们的目标是将这个网络作为一种先验嵌入到由粗到精的 MAP（最大后验）框架中，所以这个网络应该具备处理不同大小输入图像的能力。所以，我们将分类其中常用的全连接层用全局平均池化层代替。全局平均池化层在 sigmoid 层之前将不同大小的特征图转换成一个固定的大小。此外，全局平均池化层中没有额外的参数，这样就消除了过拟合问题。图 2 展示了整个网络架构和二分类网络的细节参数。

图 2. 本文中使用的二分类网络的架构和参数，其中使用了全局平均池化层取代全连接层来应对不同大小的输入。CR 代表的是后面跟着一个 ReLU 非线性函数的卷积层，M 代表的是最大池化层，C 代表的是卷积层，G 指的是全局平均池化层，S 代表的是 Sigmoid 非线性函数。

基于map的盲图像去模糊方法通常解决以下问题

损失函数

我们表示x为输入图像，ϴ作为优化的网络参数。深度网络学习一个映射函数f（x;ϴ）=P（xϵ2模糊|x），它预测输入图像的概率是模糊的。我们通过二元交叉熵损失函数来优化网络：

N表示一个批次的训练样本数量，是分类器的输出，

是输入图像的标签。我们为模糊的图像分配，并为清晰的图像分配

。

训练细节

我们从Huiskes和Lew的数据集中抽取了500个清晰的图像，包括自然的、人造的场景、脸部、低照度和文本图像。我们使用Boracchi和Foi的方法生成200个随机模糊核，大小从7 *7到50* 50不等。我们通过将清晰的图像与模糊的图像进行卷积并在其中加入高斯噪声来合成模糊图像。我们总共制作了10万张模糊的图像用于训练。在训练过程中，我们从训练图像中随机抽取200*200个补丁。为了使分类器对不同大小的图像具有鲁棒性，我们采用了一种多尺度的训练策略，【0.25，1】之间随机调整输入图像;

我们使用mat卷积网络工具箱来实现这个网络。我们使用Xavier方法来初始化网络参数，并使用随机梯度下降（SGD）方法来优化网络。我们使用的batch大小是50，0。9的动量和10 4的重量衰减。学习率被设定为0.001，每50个时期减少5倍。

之后我们训练我们设计的网络的收敛性，我们使用训练好的模型作为公式2中图像的先验，我们也使用L0范数作为正则化项，所以我们的目标是解决一下最优化问题。

其中r,u,入是惩罚参数。

我们想优化公式4就是要解决I与K，所以我们把问题分裂成为两个子问题，分别解决其目标

解决I

公式5中是高度非凸函数，想要直观上最小化公式5是非常难的，我们使用半二次分割方法引入变量U与，分别代表其图像以及其水平方向和垂直方向上的梯度。公式5进行变换为：

是惩罚参数，如果无穷大的时候，公式7可以等价于公式5，我们解决公式7，可以通过最小化，这样避免了直接最小化非凸函数。

我们通过固定g和u的参数来解决潜在的图像I以及对其优化。

这是一个最小二乘优化问题，有一个闭合形式的解：

其中是傅里叶变换以及傅里叶反变换。是复共轭算子。分别是水平和垂直微分算子。

考虑到潜在的图像I，我们用g和u来解决：

解决公式10作用引用了一篇文章的方法一带而过，我计划下次组会我讲那篇，我们可以用反向传播的方法计算f(.),我们用梯度下降法来更新u:

其中erta是步长，解决公式12的方法如同算法1

解决K

考虑到潜在图像的情况，公式6就是一个优化最小二乘法的问题，为了获得更好的结果，我们使用图像梯度估计模糊核。

我们使用离散傅立叶变换的快速算法来解决这个问题。

实验结果

我们对该算法在自然图像数据集、文本、人脸和低照度图像上进行了评估。在实验中我们设置，为了平衡精度和速度我们设置

。所有的实验都是在一台带有英特尔酷睿i7-3770处理器和32 GB RAM的台式电脑上进行的。本文中使用的源代码和数据集将向公众开放。更多的实验结果被包含在补充材料中。

自然图像

我们首先对Kohler等人的自然图像数据集进行了评估，其中包含4个潜在的图像和12个模糊的内核。我们比较了7种通用图像的去模糊方法。我们遵循协议来计算PSNR(峰值信噪比)，将每个恢复的图像与沿着相同的摄像机运动轨迹捕捉到的199个清晰图像进行比较。如图3（a）所示，我们的方法平均达到最高的PSNR。图4显示了一个示例的模糊结果。我们的方法可以生成更清晰的图像，而不那么响的工件。

接下来，我们将在Sun等人提供的数据集上对我们的算法进行评估，该数据由来自莱文等人的80个清晰图像和8个模糊的内核组成。为了进行公平的比较，我们首先生成最先进方法的模糊内核，并应用相同的非盲反褶积来恢复隐藏的图像。我们测量错误比，并在图3（b）中绘制结果，这表明所提议的方法对最先进的算法具有竞争力。

我们还在现实世界的模糊图像上测试我们的方法。在这里，我们使用相同的非盲反卷积算法来进行公平比较。如图5所示，与别的方法相比，我们的方法生成更清晰的图像。

特殊领域图像

我们在text图像数据集上对我们的算法进行评估，它由15个清晰的文本图像和8个模糊的内核组成。我们在表1中显示了PSNR的平均值。虽然文本模糊处理方法具有最高的PSNR，但该方法对最先进的通用模糊算法具有良好的性能。图6显示了模糊文本图像的模糊结果。所提出的方法会产生更清晰的结果，并具有更清晰的字符。