CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪

2019 年 1 月 22 日 PaperWeekly

作者丨左育莘

学校丨西安电子科技大学

研究方向丨计算机视觉

图像去噪是low-level视觉问题中的一个经典的话题。其退化模型为 y=x+v，图像去噪的目标就是通过减去噪声 v，从含噪声的图像 y 中得到干净图像 x 。在很多情况下，因为各种因素的影响，噪声的信息是无法得到的，在这样的情况下进行去噪，就变成了盲去噪。

Image Blind Denoising With Generative Adversarial Network Based Noise Modeling 是中山大学和 CVTE 发表于 CVPR 2018 的工作，该文章通过利用 GAN 对噪声分布进行建模，并通过建立的模型生成噪声样本，与干净图像集合构成训练数据集，训练去噪网络来进行盲去噪。

很多去噪问题的解法，例如基于多种图像先验信息的方法，如 BM3D，可以通过结合 noise-level 估计算法来达到盲去噪的效果。但是，这些方法还是有很大的缺陷。

首先，在这些方法中的图像先验信息大多基于人类知识，因此图像的全部特征就很难被捕捉到。第二，这些方法中绝大多数都是只用了输入图像的内部信息，没有使用到任何的外部信息，所以，还有很大的提升空间。

而基于已知噪声信息（noise-level）的图像去噪方法，特别是基于 CNN 的方法，对于已知高斯噪声的信息，这些方法可以达到 SOTA 水平。而且，这些方法不需要依靠人类对于图像的先验信息。但是这些方法在实际中很难派上用场。因为实际中我们得到一张图像，其中的噪声信息是未知的。

基于上面的分析，作者的思路：通过给定的含噪声图像构建一个配对的训练数据集，然后通过使用基于 CNN 的方法来进行盲去噪。

构建这样一个数据集需要通过含噪声的图像来对噪声分布进行建模，然后生成噪声数据。实际上，前面的工作已经使用 GMM（高斯混合模型）来进行对噪声的模拟。但是得到的噪声数据并不是和观测得到的噪声十分相似，因此就需要一个更好的噪声建模方法。

作者在本文中提出了一个新颖的两步框架。首先，训练 GAN 以估计输入噪声图像上的噪声分布并生成噪声样本。其次，利用从第一步采样的噪声块来构建成对的训练数据集，该数据集又用于训练 CNN 以对给定的噪声图像进行去噪。

网络结构

▲ GCBD方法

噪声建模估计

文章假设需要处理的图像都含有同一类型的未知的均值为 0 的噪声。然后，进行噪声建模。

1. 提取噪声图像块

这是正确训练 GAN 以模拟未知噪声的重要步骤，因为噪声分布将从噪声主导数据中更好地被估计。

为了减小原始背景的影响，需要从给定噪声图像中具有弱背景的部分中首先提取一组近似噪声块（或块），例如 V。

这样，噪声分布成为 GAN 学习的主要目标，这可能使 GAN 模型更加准确。在噪声分布的期望为零的假设下，可以通过减去噪声图像中相对平滑的 patch (smoothed patch) 的平均值来获得近似的噪声 patch。

这里讨论的 smoothed patch 指的是内部内容非常相似的区域。文中的数学定义即为 patch 中各部分的均值，方差在一个很小的范围内波动。

以步长为 Sg 对整张含噪声图像提取图像块 Pi，其大小为 d × d；
以步长为 Sl 对图像块 Pi 提取局部图像块，其大小为 h × h；
若对于 Pi 中所有的，都满足以下条件，就说明 Pi 为 smoothed patch，μ, γ∈(0,1)。
将每一个 smoothed patch 保存到集合 S 中，然后各自减去各自的均值，就得到 noise patch 集合 V。

2. 利用GAN进行噪声建模

利用刚才得到的 noise patch 集合，然后用 GAN 来对噪声进行建模，通过建立的模型生成更多的噪声数据。

在文章的方法中，GAN 是通过第一部得到的近似噪声 patch 集合 V 来估计噪声的分布的。

由于 WGAN 可以改进 GAN 的训练并生成高质量的样本。因此，在文章的实验中，WGAN-GP 是 WGAN 的改进版本，用于学习噪声分布。

这里的 loss 函数为：

这里的 Pr 表示 V 的数据分布，Pg 是生成器生成数据的分布。被定义为沿着 Pr 和 Pg 样的点对之间的直线均匀分布的采样。

▲ GAN网络结构

作者采用类似于 DCGAN 的网络，训练好的网络被用来生成噪声样本（增强集合 V）并最终得到集合 V'。

通过深度CNN进行去噪

许多以前的工作提出通过训练具有大型数据集的 CNN 来解决去噪问题，并取得了令人瞩目的成果。如前所述，CNN 可以隐含地从配对的训练数据集中学习潜在噪声模型，从而放松了对图像先验的人类知识的依赖。因此，在文章的方法中使用 CNN 进行去噪。

为了训练 CNN，首先需要构建一个配对的训练数据集，从刚才得到的经过 GAN 扩展的 V' 数据集，然后再从干净图像的数据集中通过图像分块（patch 大小 d×d）的方法得到干净图像数据集 X。在 V' 中的 noise block 随机地加入到 X 中，得到集合 Y。其中有。然后通过集合 X 和 Y 构成配对数据集 {X,Y}。