成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
CVPR2021「自监督学习」领域重磅新作,只用负样本也能学?
2021 年 3 月 17 日
新智元
新智元报道
来源:CVPR 2021
编辑:LQ
【新智元导读】
在自监督学习领域,基于contrastive learning(对比学习)的思路已经在下游分类检测和任务中取得了明显的优势。其中如何充分利用负样本提高学习效率和学习效果一直是一个值得探索的方向,本文「第一次」提出了用对抗的思路end-to-end来直接学习负样本,在ImageNet和下游任务均达到SOTA.
众所周知,负样本和正样本是对比学习的关键。进一步而言,负样本的数量和质量对于对比学习又是其中的重中之重。在BYOL
[1]
提出后,对于是否需要负样本也引发了很多讨论,本文从对抗的角度去探索负样本,也揭示了负样本的本质和BYOL在去除负样本之后仍然能够达到非常好的效果的原因。
论文链接:https://arxiv.org/abs/2011.08435
论文代码已开源:https://github.com/maple-research-lab/AdCo
AdCo仅仅用8196个负样本(八分之一的MoCo v2的负样本量),就能达到与之相同的精度。同时,这些可直接训练的负样本在和BYOL中Prediction MLP参数量相同的情况下依然能够取得相似的效果。这说明了在自监督学习时代,通过将
负样本可学习化
,对比学习仍然具有学习效率高、训练稳定和精度高等一系列优势。
目录
1、要不要负样本?
2、AdCo vs. BYOL
3、新思路:Adversarial Contrast: 对抗对比学习
4、实验结果
1、 要不要负样本?
去年DeepMind提出的无监督模型BYOL
[1]
的一个突出特点是去掉了负样本,在讨论AdCo前,一个很核心的问题就是在自监督时代,我们究竟要不要负样本?
首先,从比较纯粹的实用主义角度来说,MoCo V2
[2]
这类基于负样本的对比学习方法,自监督训练的时间都是比BYOL较少的。这点不难理解,MoCo V2不需要基于Global Batch Normalization (BN)(GPU之间需要通讯),所以从速度来说仅仅需要BYOL约1/3的时间。
另一方面,类似MoCo V2的方法一个比较麻烦的地方是要不断得维护一个负样本的队列。但是,用一组负样本做对比学习,从训练性能的角度来说,从前诸多的实验来看可能更稳定,毕竟多个负样本的对比可以提供更多的样本的分布信息,比BYOL只在单个图像的两个变换增强样本得到的特征上做MSE从训练的角度来说可以更稳定。同时memory bank维持的负样本并不需要梯度计算,所以相关计算量可以忽略不计。
因此,我们认为
负样本在对比学习里仍然是一个值得探索的方向
。但需要解决如何提高负样本的质量和使用效率的问题。一个比较好的想法是我们能不能不再依赖一个被动的维护一个负样本队列去训练对比模型,而是
直接通过主动学习的方法把负样本当作网络参数的一部分去做end-to-end的训练
?
2、 AdCo vs. BYOL
BYOL中除了global BN外,为了用一个分支得到的特征去监督另外一个分支输出的特征,还需要训练一个只存在于query分支的MLP的预测器(predictor)以达到非对称的结构防止训练collapse。
虽然BYOL的predictor里的参数不是负样本,但某种意义上可以看作是某种包含典型样本对应特征的codebook,这个codebook的组合形成了对另一个分支输出特征的预测。为了达到精确预测的目的,势必要求这个codebook要比较diverse,能比较好的覆盖另外一个分支输出的特征,从而阻止collapse的可能。
从模型参数的角度来说,这个额外的 Predictor Layer 相当于一般对比学习里用到的负样本,只不过前者是直接通过反向传播训练得到的,而后者在MoCo V2
[2]
和SimCLR
[3]
里是通过收集过去或者当前的batch中的特征得到的。
那么,一个自然的问题就是,负样本能够也能像预测器一样通过训练出来吗?如果可以,就意味着对比学习中的负样本也可以看作是模型的一部分,并且可以通过训练的方法得到,这就给出了一种更加直观优美的方法来构造负样本。
遗憾的是,直接去最小化contrastive loss并不能用来训练负样本,因为这样得到的是远离所有query样本的负样本,因此我们在AdCo中采取了
对抗学习
的思路。
3、 新思路:用对抗对比学习去直接训练负样本!
依据此,我们提出了
AdCo对抗对比学习
,通过直接训练负样本的方式来进一步提高负样本的质量从而促进对比学习。
1、相比于memory bank去存储过往图片embedding的方式,我们完全可以把负样本作为可学习的权重来训练,这里的好处是我们的所有负样本可以在每次迭代中同步更新。质量。作为对比,MoCo V2每次只能更新当前负样本队列里的很小的一部分,这导致了最早进入memory bank的负样本对于对比学习的贡献相对较小。
2、当然,更新负样本就不能去最小化对应的contrastive loss,而要最大化它,使得得到的负样本更加地困难,而对训练representation network更有价值,这就得到了一个对抗性的对比学习,对抗的双方是负样本和特征网络。
3、通过对update负样本的梯度进行分析,我们发现这种方法具有非常明显的物理意义。负样本每次更新的方向都是指向当前正样本的一个以某个负样本所归属的正样本的后验概率为权重,对正样本做加权平均得到的梯度方向;
具体而言,文章中的公式(6)通过最大化对比损失函数可以给出直接训练负样本的梯度:
其中的条件概率是
实验发现,在同样的训练时间、minibatch大小下,
AdCo的精度都会更高
。这说明了,AdCo比其他的自监督方法就有更高的训练效率和精度。这种提升来自对负样本更有效的更新迭代。
4、实验结果
相比于基于memory bank的方法,我们的模型在ImageNet分类任务上有了显著的提升。
同时,在下游检测和分类任务中,我们相比过往自监督方法和全监督方法都有显著的提升:
我们进一步AdCo是否可以通过训练更少的负样本来得到同样好的无监督预训练模型。答案是肯定的。
如下面的结果所展示的,只用原先1/4和1/8的样本,在ImageNet上的top-1 accuracy几乎没有任何损失。这进一步说明了,通过直接用对抗的方式训练负样本,把负样本看成是模型可训练参数的一部分,完全可以得到非常好的训练效果,而且相对于其他的模型,所用的 GPU训练时间也更少。
进一步而言,我们的学习效率也显著优于基于memory bank的方法,以下是不同自监督训练轮数下在ImageNet上的对比:
参考资料:
[1] Grill, Jean-Bastien, et al. "Bootstrap your own latent: A new approach to self-supervised learning." arXiv preprint arXiv:2006.07733 (2020).
[2] Chen, Xinlei, et al. "Improved baselines with momentum contrastive learning." arXiv preprint arXiv:2003.04297 (2020).
[3] Chen, Ting, et al. "A simple framework for contrastive learning of visual representations." International conference on machine learning. PMLR,
2020.
推荐你看:
惨烈!特斯拉再次撞上白色卡车,两名乘客急送ICU
「油管」翻译太别扭?最符合国人习惯的词典,收好了!
登录查看更多
点赞并收藏
0
暂时没有读者
2
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
负样本
关注
0
【CVPR2021】无遗忘效应的小类样本目标检测器
专知会员服务
24+阅读 · 2021年5月23日
【CVPR2021】密集对比学习的自监督视觉预训练
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】无监督时空表示学习的大规模研究
专知会员服务
22+阅读 · 2021年5月1日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【CVPR2021】动态度量学习
专知会员服务
39+阅读 · 2021年3月30日
【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价
专知会员服务
31+阅读 · 2021年3月19日
【CVPR2021】坐标注意力的高效移动网络设计
专知会员服务
21+阅读 · 2021年3月9日
【MIT】硬负样本的对比学习
专知会员服务
39+阅读 · 2020年10月14日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
46+阅读 · 2020年4月19日
Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版,超越Hinton的SimCLR,刷新ImageNet准确率
专知会员服务
35+阅读 · 2020年3月11日
计算机视觉中的自监督表示学习近期进展
PaperWeekly
9+阅读 · 2020年10月5日
对比自监督学习
深度学习自然语言处理
34+阅读 · 2020年7月15日
再发力!Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版,超越Hinton的SimCLR,刷新SOTA准确率
专知
48+阅读 · 2020年3月11日
何恺明最新一作论文:无监督胜有监督,迁移学习无压力,刷新7项检测分割任务
量子位
7+阅读 · 2019年11月19日
何恺明一作,刷新7项检测分割任务,无监督预训练完胜有监督
机器之心
12+阅读 · 2019年11月15日
伯克利提出数据增强新方法,计算速度提升1000倍
AI前线
12+阅读 · 2019年6月21日
目标检测小tricks之样本不均衡处理
PaperWeekly
49+阅读 · 2019年4月5日
一种小目标检测中有效的数据增强方法
极市平台
119+阅读 · 2019年3月23日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
CVPR 2018 | 伯克利等提出无监督特征学习新方法,代码已开源
AI前线
12+阅读 · 2018年5月13日
Towards Solving Inefficiency of Self-supervised Representation Learning
Arxiv
0+阅读 · 2021年6月22日
Learning to Rank Question Answer Pairs with Bilateral Contrastive Data Augmentation
Arxiv
1+阅读 · 2021年6月21日
SiT: Self-supervised vIsion Transformer
Arxiv
19+阅读 · 2021年4月8日
Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification
Arxiv
9+阅读 · 2021年3月26日
One for More: Selecting Generalizable Samples for Generalizable ReID Model
Arxiv
5+阅读 · 2020年12月10日
Self-Supervised Learning by Cross-Modal Audio-Video Clustering
Arxiv
6+阅读 · 2020年10月26日
Contrastive Clustering
Arxiv
31+阅读 · 2020年9月21日
A Simple Framework for Contrastive Learning of Visual Representations
Arxiv
21+阅读 · 2020年2月13日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
Online Deep Metric Learning
Arxiv
8+阅读 · 2018年5月15日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
负样本
对比学习
样本
MoCo
自监督学习
监督学习
相关VIP内容
【CVPR2021】无遗忘效应的小类样本目标检测器
专知会员服务
24+阅读 · 2021年5月23日
【CVPR2021】密集对比学习的自监督视觉预训练
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】无监督时空表示学习的大规模研究
专知会员服务
22+阅读 · 2021年5月1日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【CVPR2021】动态度量学习
专知会员服务
39+阅读 · 2021年3月30日
【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价
专知会员服务
31+阅读 · 2021年3月19日
【CVPR2021】坐标注意力的高效移动网络设计
专知会员服务
21+阅读 · 2021年3月9日
【MIT】硬负样本的对比学习
专知会员服务
39+阅读 · 2020年10月14日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
46+阅读 · 2020年4月19日
Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版,超越Hinton的SimCLR,刷新ImageNet准确率
专知会员服务
35+阅读 · 2020年3月11日
热门VIP内容
开通专知VIP会员 享更多权益服务
【AAAI2025】通过自适应多方面检索增强,利用大型语言模型进行知识图谱问答
中国信通院发布《人工智能风险治理报告(2024年)》
AAAI 2025 | 基于模态分词的细粒度实体表示学习框架
【哈佛大学博士论文】低质量数据的高风险决策:行星健康的人工智能决策制定
相关资讯
计算机视觉中的自监督表示学习近期进展
PaperWeekly
9+阅读 · 2020年10月5日
对比自监督学习
深度学习自然语言处理
34+阅读 · 2020年7月15日
再发力!Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版,超越Hinton的SimCLR,刷新SOTA准确率
专知
48+阅读 · 2020年3月11日
何恺明最新一作论文:无监督胜有监督,迁移学习无压力,刷新7项检测分割任务
量子位
7+阅读 · 2019年11月19日
何恺明一作,刷新7项检测分割任务,无监督预训练完胜有监督
机器之心
12+阅读 · 2019年11月15日
伯克利提出数据增强新方法,计算速度提升1000倍
AI前线
12+阅读 · 2019年6月21日
目标检测小tricks之样本不均衡处理
PaperWeekly
49+阅读 · 2019年4月5日
一种小目标检测中有效的数据增强方法
极市平台
119+阅读 · 2019年3月23日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
CVPR 2018 | 伯克利等提出无监督特征学习新方法,代码已开源
AI前线
12+阅读 · 2018年5月13日
相关论文
Towards Solving Inefficiency of Self-supervised Representation Learning
Arxiv
0+阅读 · 2021年6月22日
Learning to Rank Question Answer Pairs with Bilateral Contrastive Data Augmentation
Arxiv
1+阅读 · 2021年6月21日
SiT: Self-supervised vIsion Transformer
Arxiv
19+阅读 · 2021年4月8日
Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification
Arxiv
9+阅读 · 2021年3月26日
One for More: Selecting Generalizable Samples for Generalizable ReID Model
Arxiv
5+阅读 · 2020年12月10日
Self-Supervised Learning by Cross-Modal Audio-Video Clustering
Arxiv
6+阅读 · 2020年10月26日
Contrastive Clustering
Arxiv
31+阅读 · 2020年9月21日
A Simple Framework for Contrastive Learning of Visual Representations
Arxiv
21+阅读 · 2020年2月13日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
Online Deep Metric Learning
Arxiv
8+阅读 · 2018年5月15日
大家都在搜
palantir
自主可控
大规模语言模型
CMU博士论文
技术报告
洛克菲勒
PCA
炼丹
国家地理图册
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top