随着 Transformer 的提出以及在底层任务上应用的进一步探索,相信在很多底层任务数据集上可以取得新的 SOTA 成绩。但是不可否认的是,现有数据集的指标提升逐渐趋于平缓,似乎来到了一个瓶颈。要继续向前迈步,短期内难以出现超越 Transformer 的网络结构,那另一方面则是方法上的创新,一些被广泛应用于高层视觉任务的方法,诸如对比学习、度量学习等,是否值得借鉴?
CVPR 2021 的文章 Contrastive Learning for Compact Single Image Dehazing 在去雾任务中引入对比学习,消融实验也证明对比学习的引入有助于网络性能的提升。但其使用对比学习的方法仍旧比较粗糙,这也是个人认为这篇文章虽然实验结果提升不大,但是在思路上有较大意义的地方——上文采用一个预训练 VGG 将图像映射至隐空间计算对比损失,去雾网络和 VGG 存在一定的脱节,而且对比学习的成效很大意义上取决于 VGG 的能力强弱。另一点则是正负样本的选择。这两点都是本文所考虑以及试图解决的问题,作者也做出了自己的尝试。个人还是很期待作者能把这个方法继续做 work,提升实验结果的。
A Practical Contrastive Learning Framework for Single Image Super-Resolution
论文链接:
https://arxiv.org/abs/2111.13924
Abstract
对比学习在高层视觉任务中取得了巨大成功,但在底层视觉任务中很少提出相关方法。将为高层任务设计的原始对比学习方法直接应用于底层任务是颇具挑战性的,因为获取的全局视觉表征不足以重建得到丰富的纹理与细节信息。本文基于样本构建与特征提取两个角度,为单图超分(SISR)提出了一种显著的对比学习框架。
现有方案提出了一些简单的样本构建方法(例如将低质量输入视为负样本,gt 视为正样本)并采用先验模型(预训练的 VGG)以获得特征嵌入而不是探索一种任务友好的方式。为此,我们为 SISR 提出了一种实用的对比学习框架,涉及在频率空间中生成信息量大的正样本与困难负样本。
本文设计一种从鉴别器网络继承的简单但有效的嵌入网络,而不是利用额外的预训练网络,并且可以使用主 SR 网络进行迭代优化,使其具有任务泛化性。最后我们进行额外的验证实验相比于基准方法并比现在的 SOTA 方法获得 0.21dB 的增益。
Introduction
对比学习在无监督表示学习已经成为一种有效的范例。基于实例差异的前置任务,这些方法通过从相同实例相似性与不同实例差异性获得经验以学习视觉表征。这些学习到的视觉表征对以高层任务为主的许多下游任务均增益,且效果可观,如有监督的图像分类,图像聚类,细粒度图像分类和知识蒸馏。
但在底层图像处理任务上,直接应用对比学习仍存在诸多挑战:
1. 学习到的全局视觉表征缺乏低层任务所需的丰富纹理和结构信息;
2. 高层下游任务适用的数据增强,除一些简单的几何增强外均不适用于底层任务;
3. 需要一个有意义的隐空间(或特征嵌入空间)以计算对比损失。
目前底层任务的对比学习方法主要注重于探索负样本,同时将 gt 作为正样本。文章总结了一些最新的相关文章,一些在正刊上发表一些只是挂在 arXiv 上。
这些方法均存在一定的缺陷。[19, 57, 59] 将 gt 作为正样本,退化的图像或数据集中其余图像作为负样本。这些负样本与重建图像相似度低,导致容易区分,难以对对比损失做出贡献。而对一些特定的图像重建任务,另一些基于对比学习研究 [9, 14, 55, 63] 致力于生成图像的全局不变特征,免于噪声、雨、分辨率以及模糊。这些方法忽视了构建有效正负样本对这一部分。此外由于这些方法的对比损失定义在某些特定特征空间内,无法很好泛化至其他任务。
本文调查研究了 SISR 的对比学习并提出一种有效的 SISR 对比学习框架,可同步生成多个正负样本。最近的研究显示现有深度学习方法得到的超分结果趋于平滑,视觉上不自然不合理。基于这些发现和对困难负样本的挖掘研究,文章通过将轻微模糊添加于 gt 以生成困难负样本以及简单锐化以生成富含信息的有效正样本。从而为超分图像获得正负样本对。
进一步,区别于现有方法采用额外预训练特征提取网络(例如预训练的 VGG),文章利用轻便且任务友好的特征提取网络:SR 网络的鉴别器,将正/负/锚点样本嵌入至对比损失定义的特征空间。对于锚点样本,对比损失将使它原理负样本,靠近正样本。由于该特征提取网络继承自 SR 网络的鉴别器,该鉴别将超分图像与高分辨率图像进行区分,因此嵌入的特征对图像退化十分敏感。故而超分图像可以很好的与负样本区分开同时靠近正样本。
1. 提出了针对 SISR 任务的一种有效对比学习框架;
2. 重新思考并提出了一个显著方法以获得任务友好或任务泛化性墙的特征,通过重新利用 SR 网络的鉴别器,对比损失可以很好的工作;
3. 额外实验证明本文的方法(PCL-SISR)表现在定量与定性方面均优于代表性的 SISR 方法。
Related work
简要介绍了对比学习、图像恢复和图像间转换中的对比学习以及 SISR 领域的相关研究。
Method
4.1 Preliminaries
对比学习是最强大的表征学习方法之一。致力于将锚点样本在隐空间中推向正样本,远离负样本。对于数据集
,表征学习模型 E 使用 InfoNCE 损失,被训练于提取表征
。
基于 softmax 形式,对第 i 个样本的损失定义如下:
其中
是温度超参数,
代表正样本,通常由样本
经随机数据增强生成。
是负样本集的数量,
代表负样本集。整体对比损失定义如下:
在有监督分类任务中,通常正样本不止一个。在此任务中,监督对比损失定义为:
是正样本集数目,
是正样本集,整体监督对比损失定义为:
4.2 Positive and Negative Sample Generations
通过将不同高通核作用于 HR 图像生成
张正样本,因为:
1. SISR 任务致力于得到细节化的结果,而细节通常存在于高频成分中;
2. SISR 问题是一个不适定问题,LR 图像和 HR 图像间的对应关系通常是一对多,也就是应该有多张合理的 GT。
之前的任务中将退化的图像或者不同图像作为负样本,锚点与负样本间过于不相似,很容易区分,在计算损失时作用受限。因此利用随机的高斯模糊核作用于将 HR 图像生成多个负样本。
4.3 Feature Embedding Network
文章提出了一个类似于 GAN 的框架结构,使用原始 GAN 网络中鉴别器作为特征提取网络,将图像映射至隐空间计算对比损失。为增强高频成分的学习,将低频成分与高频成分相分离,上述特征提取网络仅输入高频成分。具体实现时,采用哈尔小波变换,保留 LL,LH,HL,HH 四个子带中的 LH,HL,HH,鉴别损失定义如下:
并采取类似 GAN 网络的训练策略,每次 freeze 一部分然后训练另一部分:
4.4 Contrastive Loss
为了充分利用生成的多个正负样本,文章利用特征提取网络
的多个中间特征计算对比损失。
第
层第
个样本的对比损失定义如下:
其中
是相似度函数,
和
分别代表正负样本集。对于
的特征图,
采用像素级别的余弦相似度的均值,定义如下:
4.5 Training and Implementation Details
Experiments
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读 ,也可以是学术热点剖析 、科研心得 或竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱: hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」 也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」 订阅我们的专栏吧