【导读】作为计算机视觉领域的三大国际顶会之一,IEEE国际计算机视觉与模式识别会议CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都会吸引全球领域众多专业人士参与。CVPR 2021将在线举行, 中国科学院院士、中科院自动化所智能感知与计算研究中心主任谭铁牛将出任大会主席(General Chair,GC),上海科技大学的虞晶怡教授将任程序主席(Program Chair,PC)。今年的CVPR有效投稿多达7500篇,一共有1663篇论文被接收,接收率为27%。
为此,专知小编提前为大家整理了五篇CVPR 2021对比学习(Contrastive Learning)在计算机视觉上的应用,这块这几年一直比较受关注,特别是具体领域应用等等?大家先睹为快——图像去雾、少样本学习、多模态视频学习、密集CL、对抗CL
CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Contrastive Learning for Compact Single Image Dehazing
作者:Haiyan Wu, Yanyun Qu, Shaohui Lin, Jian Zhou, Ruizhi Qiao, Zhizhong Zhang, Yuan Xie , Lizhuang Ma
摘要:由于严重的信息退化,单图像去雾是一个具有挑战性的问题。然而,现有的基于深度学习的除雾方法仅采用清晰的图像作为正样本来指导除雾网络的训练,而未利用负样本信息。而且,它们中的大多数集中在通过增加深度和宽度来增强除雾网络,从而导致大量的计算和内存需求。在本文中,我们提出了一种基于对比学习的新颖对比正则化(CR)技术,以利用模糊图像和清晰图像的信息分别作为负样本和正样本。CR确保在表示空间中将还原后的图像拉到更接近清晰图像,并推到远离朦胧图像的位置。此外,考虑到性能和内存存储之间的权衡,我们基于类自动编码器(AE)框架开发了一个紧凑的除雾网络。它涉及自适应混合操作和动态特征增强模块,分别受益于自适应地保存信息流和扩展接收域以提高网络的转换能力。我们将具有自动编码器和对比正则化功能的除雾网络称为AECR-Net。在合成和真实数据集上进行的广泛实验表明,我们的AECR-Net超越了最新技术。
论文: https://arxiv.org/abs/2104.09367
代码: https://github.com/GlassyWu/AECR-Net
2. Fine-grained Angular Contrastive Learning with Coarse Labels
作者:Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky
摘要:Few-shot学习方法会提供经过优化的预训练技术,以便使用一个或几个示例轻松地将模型适应新类(在训练过程中看不见)。这种对不可见类别的适应性对于许多实际应用尤为重要,在这些实际应用中,预先训练的标签空间无法保持固定以有效使用,并且模型需要“特殊化”以支持动态的新类别。粗粒度到细粒度(Coarse-to-Fine)Few-Shot(C2FS)是一种特别有趣的场景,基本上被Few-Shot文献所忽略,其中训练(train)类(例如,动物)的粒度比目标(test)类的“粒度”粗得多(例如品种)。C2FS的一个非常实际的示例是目标类是训练类的子类。直观地讲,这是特别具有挑战性的,因为包括regular and few-shot的有监督的预训练往往会学会忽略类内差异性,这对于分离子类至关重要。在本文中,我们介绍了一种新颖的“角度归一化(Angular normalization)”模块,该模块可以有效地结合监督和自监督的对比预训练来解决C2FS任务,从而证明了在多个基准和数据集的广泛研究中所取得的显著成果。我们希望这项工作将有助于为有关C2FS分类这一新的,具有挑战性且非常实用的主题的未来研究铺平道路。
论文: https://arxiv.org/abs/2012.03515
3. Distilling Audio-Visual Knowledge by Compositional Contrastive Learning
作者:Yanbei Chen, Yongqin Xian, A.Sophia Koepke, Ying Shan, Zeynep Akata
摘要:与从单模态学习相比,获得多模态线索,(例如,视觉和音频)可以更快地完成某些认知任务。在这项工作中,我们建议在跨模态中传输知识,即使这些数据模态在语义上可能不相关。与直接对齐不同模态的表示不同,我们组合音频,图像和视频的跨模态表示,以发现更丰富的多模态知识。我们的主要思想是学习一种组合嵌入表示,这种嵌入可以缩小跨模态语义鸿沟并捕获与任务相关的语义,这有助于通过组合对比学习将跨模态的表示整合在一起。我们在三个视频数据集(UCF101,ActivityNet和VG-GSound)上建立了一个新的,全面的多模态蒸馏基准。此外,我们证明了我们的模型在传输视听知识以改善视频表示学习方面,明显优于各种现有的知识蒸馏方法。
论文: https://arxiv.org/abs/2104.10955
代码: https://github.com/yanbeic/CCL
4. Dense Contrastive Learning for Self-Supervised Visual Pre-Training
作者:Xinlong Wang, Rufeng Zhang, Chunhua Shen, Tao Kong, Lei Li
摘要:迄今为止,大多数现有的自监督学习方法都是针对图像分类进行设计和优化的。由于图像级预测和像素级预测之间的差异,这些预训练的模型对于密集的预测任务可能不是最佳的。为了解决这个问题,我们旨在设计一种有效,密集的自监督学习方法,通过考虑局部特征之间的对应关系,直接在像素(或局部特征)级别上起作用。我们提出了密集的对比学习(DenseCL),该算法通过在输入图像的两个视图之间的像素级别上优化成对的对比(不相似)损失来实现自监督学习。
与基准方法MoCo-v2相比,我们的方法引入的计算开销(仅慢了1%)可忽略不计,但是在转移到下游密集的预测任务(包括目标检测,语义分割和实例分割)时,始终表现出优异的性能;并大大领先于最新技术。具体而言,在强大的MoCo-v2基线上,我们的方法在PASCAL VOC数据集对象检测任务上的AP显著提升2.0%,COCO数据集对象检测任务上的AP显著提升1.1%,COCO数据集实例分割任务上的AP提升0.9%,PASCAL VOC数据集语义分割任务上的AP提升3.0% Cityscapes数据集语义分割任务上mIoU显著提升1.8%。
论文: https://arxiv.org/abs/2011.09157
5. AdCo: Adversarial Contrast for Efficient Learning of Unsupervised Representations from Self-Trained Negative Adversaries
作者:Qianjiang Hu, Xiao Wang, Wei Hu, Guo-Jun Qi
摘要:对比学习依赖于构建一个负样本集合,当负样本的表示是经过自训练时,负样本很难与正样本的查询(query)区分开来。现有的对比学习方法要么在小批量样本中含有负样本队列,而只有一小部分在迭代中被更新,要么只使用当前小批量样本中的其他样本作为负样本。他们无法通过更新整个队列来密切跟踪迭代过程中学习到的表示的变化,也无法从使用过的小批量样本中剔除有用信息。或者,我们提出直接学习一组负样本来对抗自我训练的表示。两个角色,表示网络和负样本对抗,交替更新来获取最具挑战性的负样本,以区分正样本查询的表示。我们进一步表明,通过最大化对抗性对比损失,负样本被更新为正样本查询的加权组合,从而他们能够随着时间密切跟踪表示的变化。实验结果表明,本文所提出的对抗对比模型(AdCo)不仅具有出色的性能(在ImageNet上进行线性评估,200个epoch时 top-1准确度为73.2%,800个epoch时为75.7%),而且可以在更短的GPU时间和更少的epoch条件下进行更有效的预训练。