预训练已被证实能够大大提升下游任务的性能。传统方法中经常利用大规模的带图像标注分类数据集(如 ImageNet)进行模型监督预训练,近年来自监督学习方法的出现,让预训练任务不再需要昂贵的人工标签。然而,绝大多数方法都是针对图像分类进行设计和优化的。但图像级别的预测和区域级别 / 像素级别存在预测差异,因此这些预训练模型在下游的密集预测任务上的性能可能不是最佳的。
基于此,来自阿德莱德大学、同济大学、字节跳动的研究者设计了一种简单且有效的密集自监督学习方法,不需要昂贵的密集人工标签,就能在下游密集预测任务上实现出色的性能。目前该论文已被 CVPR 2021 接收。
https://www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4
该研究提出的新方法 DenseCL(Dense Contrastive Learning)通过考虑局部特征之间的对应关系,直接在输入图像的两个视图之间的像素(或区域)特征上优化成对的对比(不相似)损失来实现密集自监督学习。
两种用于表征学习的对比学习范式的概念描述图。
现有的自监督框架将同一张图像的不同数据增强作为一对正样本,利用剩余图像的数据增强作为其负样本,构建正负样本对实现全局对比学习,这往往会忽略局部特征的联系性与差异性。该研究提出的方法在此基础上,将同一张图像中最为相似的两个像素(区域)特征作为一对正样本,而将余下所有的像素(区域)特征作为其负样本实现密集对比学习。
具体而言,该方法去掉了已有的自监督学习框架中的全局池化层,并将其全局映射层替换为密集映射层实现。在匹配策略的选择上,研究者发现最大相似匹配和随机相似匹配对最后的精度影响非常小。与基准方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的计算开销(仅慢了不到 1%),但在迁移至下游密集任务(如目标检测、语义分割)时,表现出了十分优异的性能。