PCL-SISR：基于对比学习的单幅图像超分辨率重建方法

2021 年 12 月 26 日 PaperWeekly

©作者 | 高帆

学校 | 北京邮电大学

研究方向 | 计算机视觉

随着 Transformer 的提出以及在底层任务上应用的进一步探索，相信在很多底层任务数据集上可以取得新的 SOTA 成绩。但是不可否认的是，现有数据集的指标提升逐渐趋于平缓，似乎来到了一个瓶颈。要继续向前迈步，短期内难以出现超越 Transformer 的网络结构，那另一方面则是方法上的创新，一些被广泛应用于高层视觉任务的方法，诸如对比学习、度量学习等，是否值得借鉴？

CVPR 2021 的文章 Contrastive Learning for Compact Single Image Dehazing 在去雾任务中引入对比学习，消融实验也证明对比学习的引入有助于网络性能的提升。但其使用对比学习的方法仍旧比较粗糙，这也是个人认为这篇文章虽然实验结果提升不大，但是在思路上有较大意义的地方——上文采用一个预训练 VGG 将图像映射至隐空间计算对比损失，去雾网络和 VGG 存在一定的脱节，而且对比学习的成效很大意义上取决于 VGG 的能力强弱。另一点则是正负样本的选择。这两点都是本文所考虑以及试图解决的问题，作者也做出了自己的尝试。个人还是很期待作者能把这个方法继续做 work，提升实验结果的。

论文标题：

A Practical Contrastive Learning Framework for Single Image Super-Resolution

论文链接：

https://arxiv.org/abs/2111.13924

Abstract

对比学习在高层视觉任务中取得了巨大成功，但在底层视觉任务中很少提出相关方法。将为高层任务设计的原始对比学习方法直接应用于底层任务是颇具挑战性的，因为获取的全局视觉表征不足以重建得到丰富的纹理与细节信息。本文基于样本构建与特征提取两个角度，为单图超分（SISR）提出了一种显著的对比学习框架。

现有方案提出了一些简单的样本构建方法（例如将低质量输入视为负样本，gt 视为正样本）并采用先验模型（预训练的 VGG）以获得特征嵌入而不是探索一种任务友好的方式。为此，我们为 SISR 提出了一种实用的对比学习框架，涉及在频率空间中生成信息量大的正样本与困难负样本。

本文设计一种从鉴别器网络继承的简单但有效的嵌入网络，而不是利用额外的预训练网络，并且可以使用主 SR 网络进行迭代优化，使其具有任务泛化性。最后我们进行额外的验证实验相比于基准方法并比现在的 SOTA 方法获得 0.21dB 的增益。

Introduction

对比学习在无监督表示学习已经成为一种有效的范例。基于实例差异的前置任务，这些方法通过从相同实例相似性与不同实例差异性获得经验以学习视觉表征。这些学习到的视觉表征对以高层任务为主的许多下游任务均增益，且效果可观，如有监督的图像分类，图像聚类，细粒度图像分类和知识蒸馏。

但在底层图像处理任务上，直接应用对比学习仍存在诸多挑战：

1. 学习到的全局视觉表征缺乏低层任务所需的丰富纹理和结构信息；

2. 高层下游任务适用的数据增强，除一些简单的几何增强外均不适用于底层任务；

3. 需要一个有意义的隐空间（或特征嵌入空间）以计算对比损失。

目前底层任务的对比学习方法主要注重于探索负样本，同时将 gt 作为正样本。文章总结了一些最新的相关文章，一些在正刊上发表一些只是挂在 arXiv 上。

这些方法均存在一定的缺陷。[19, 57, 59] 将 gt 作为正样本，退化的图像或数据集中其余图像作为负样本。这些负样本与重建图像相似度低，导致容易区分，难以对对比损失做出贡献。而对一些特定的图像重建任务，另一些基于对比学习研究 [9, 14, 55, 63] 致力于生成图像的全局不变特征，免于噪声、雨、分辨率以及模糊。这些方法忽视了构建有效正负样本对这一部分。此外由于这些方法的对比损失定义在某些特定特征空间内，无法很好泛化至其他任务。

本文调查研究了 SISR 的对比学习并提出一种有效的 SISR 对比学习框架，可同步生成多个正负样本。最近的研究显示现有深度学习方法得到的超分结果趋于平滑，视觉上不自然不合理。基于这些发现和对困难负样本的挖掘研究，文章通过将轻微模糊添加于 gt 以生成困难负样本以及简单锐化以生成富含信息的有效正样本。从而为超分图像获得正负样本对。

进一步，区别于现有方法采用额外预训练特征提取网络（例如预训练的 VGG），文章利用轻便且任务友好的特征提取网络：SR 网络的鉴别器，将正/负/锚点样本嵌入至对比损失定义的特征空间。对于锚点样本，对比损失将使它原理负样本，靠近正样本。由于该特征提取网络继承自 SR 网络的鉴别器，该鉴别将超分图像与高分辨率图像进行区分，因此嵌入的特征对图像退化十分敏感。故而超分图像可以很好的与负样本区分开同时靠近正样本。

总结贡献如下：

1. 提出了针对 SISR 任务的一种有效对比学习框架；

2. 重新思考并提出了一个显著方法以获得任务友好或任务泛化性墙的特征，通过重新利用 SR 网络的鉴别器，对比损失可以很好的工作；

3. 额外实验证明本文的方法（PCL-SISR）表现在定量与定性方面均优于代表性的 SISR 方法。

Related work

简要介绍了对比学习、图像恢复和图像间转换中的对比学习以及 SISR 领域的相关研究。

Method

4.1 Preliminaries

对比学习是最强大的表征学习方法之一。致力于将锚点样本在隐空间中推向正样本，远离负样本。对于数据集，表征学习模型 E 使用 InfoNCE 损失，被训练于提取表征。基于 softmax 形式，对第 i 个样本的损失定义如下：

其中是温度超参数，代表正样本，通常由样本经随机数据增强生成。是负样本集的数量，代表负样本集。整体对比损失定义如下：

在有监督分类任务中，通常正样本不止一个。在此任务中，监督对比损失定义为：

是正样本集数目，是正样本集，整体监督对比损失定义为：

4.2 Positive and Negative Sample Generations

通过将不同高通核作用于 HR 图像生成张正样本，因为：

1. SISR 任务致力于得到细节化的结果，而细节通常存在于高频成分中；

2. SISR 问题是一个不适定问题，LR 图像和 HR 图像间的对应关系通常是一对多，也就是应该有多张合理的 GT。

之前的任务中将退化的图像或者不同图像作为负样本，锚点与负样本间过于不相似，很容易区分，在计算损失时作用受限。因此利用随机的高斯模糊核作用于将 HR 图像生成多个负样本。

4.3 Feature Embedding Network

文章提出了一个类似于 GAN 的框架结构，使用原始 GAN 网络中鉴别器作为特征提取网络，将图像映射至隐空间计算对比损失。为增强高频成分的学习，将低频成分与高频成分相分离，上述特征提取网络仅输入高频成分。具体实现时，采用哈尔小波变换，保留 LL，LH，HL，HH 四个子带中的 LH，HL，HH，鉴别损失定义如下：