【导读】无监督学习再发力!Facebook AI 研究团队的陈鑫磊、樊昊棋、Ross Girshick、何恺明等人提出了第二版动量对比(MoCo)的无监督训练方法。使用一个MLP投影头和更多的数据增强——建立了比Hinton前一久的SimCLR更强的基准,并且不需要大量的训练。

对比式无监督学习最近取得了令人鼓舞的进展,例如动量对比(MoCo)和SimCLR。在本文中,我们通过在MoCo框架中实现SimCLR的两个设计改进来验证它们的有效性。通过对MoCo的简单修改——即使用一个MLP投影头和更多的数据增强——我们建立了比SimCLR更强的基准,并且不需要大量的训练。我们希望这将使最先进的无监督学习研究更容易获得。代码将被公开。

论文链接:https://arxiv.org/pdf/2003.04297.pdf

最近关于从图像中进行无监督表示学习的研究[16,13,8,17,1,9,15,6,12,2]都集中在一个中心概念上,即对比学习[5]。结果是非常有希望的:例如,动量对比(MoCo)[6]表明,在多个检测和分割任务中,无监督前训练可以超越其图像监督后,而SimCLR[2]进一步减少了无监督和监督前预训练表示之间的线性分类器性能的差距。

本文介绍在MoCo框架内建立了更强、更可行的基线。我们报告了SimCLR中使用的两个设计改进,即一个MLP投影头和更强的数据增强,与MoCo和SimCLR框架是正交的,当与MoCo一起使用时,它们会带来更好的图像分类和目标检测迁移学习结果。此外,MoCo框架可以处理大量的负样本,而不需要大量的训练批(图1)。与需要TPU支持的SimCLR的大4k∼8k批相比,我们的“MoCo v2”基线可以在典型的8-GPU机器上运行,并且获得比SimCLR更好的结果。我们希望这些改进的基线能够为未来的无监督学习研究提供参考。

图1:对比学习的两种优化机制的批处理透视图。图像被编码到一个表示空间中,在这个表示空间中计算成对的相似度。

方法

对比学习及其最新进展可以看做是为查词典任务训练一个编码器。

假设有一个编码的查询 q 和一组编码的样本 {k0, k1, k2, ...},它们都是词典的键。词典中有一个键(k+)与 q 相匹配。对比损失是一个函数,该函数的值在 q 类似于其正键 k+且不同于其他所有键(q 的负键)时很低。研究者使用点积的相似度度量,这是一种对比损失函数的形式,名为 InfoNCE。本文采用了这个函数:

这一对比损失函数充当一个无监督目标函数,用于训练表征查询和键的编码器网络。总体来说,查询表征是 q = f_q(x^q ),其中的 f_q 是一个编码器网络,x^q 是查询样本。

改进设计

SimCLR[2]在三个方面改进了实例识别的端到端变体:(i)能够提供更多负样本的更大的批处理(4k或8k);(ii)将输出的fc投影头[16]替换为MLP头;(三)数据扩充能力增强。

在MoCo框架中,大量的负样本是现成的;MLP头和数据扩充与对比学习的实例化方式是正交的。接下来,我们研究MoCo中的这些改进。

实验设置

在1.28M的ImageNet[3]训练集上进行无监督学习。(i) ImageNet线性分类:对特征进行冻结,训练监督线性分类器;我们报告了1种crop(224×224),验证准确率排名第一。(ii) 迁移到VOC目标检测[4]:更快的R-CNN检测器[14](c4 -主干)在VOC 07+12训练集上对所有条目(包括监督和MoCo v1基线)进行端到端微调,我们对VOC进行24k迭代微调,高于[6]中的18k。并在VOC 07测试集上使用COCO标准[10]进行评估。我们使用与MoCo[6]相同的超参数(除非特别指出)和代码库。所有结果使用标准大小的ResNet-50[7]。

MLP头 在[2]之后,我们将MoCo中的fc头替换为2层MLP头(隐藏层2048-d,使用ReLU)。注意,这只影响到非监督训练阶段;线性分类或迁移阶段不使用这个MLP头。[2]之后,我们寻找一个最佳的τ关于ImageNet线性分类准确率:

使用默认τ= 0.07[16,6],训练的MLP头提高从60.6%至62.9%;切换到MLP的最优值(0.2),准确度度提高到66.2%。表1(a)显示了它的检测结果:与ImageNet上的大飞跃相比,检测增益更小。

数据增强 我们通过在[2]中加入模糊增强来扩展[6]中的原始增强(我们发现在[2]中更强的颜色失真在我们更高的基线中有递减的增益)。单独的额外增加(即(no MLP)将ImageNet上的MoCo基线提高了2.8%,达到63.4%,见表1(b)。有趣的是,它的检测准确率比单独使用MLP要高,表1(b)与(a),尽管线性分类准确度要低得多(63.4%比66.2%)。这说明线性分类精度与检测中的迁移性能不是单调相关的。对于MLP,额外的增强将ImageNet的精度提高到67.3%,见表1(c)。

与SimCLR进行比较 表2将SimCLR[2]与我们的结果MoCo v2进行了比较。为了公平比较,我们还研究了SimCLR采用的一个余弦(半周期)学习速率调度[11]。表1(d, e)。MoCo v2使用200个epoch和256个批量大小的预训练,在ImageNet上达到67.5%的准确率,比SimCLR在相同epoch和批量大小下的准确率高5.6%,比SimCLR的大批量结果高66.6%。通过800-epoch的预训练,MoCo v2达到了71.1%,超过了SimCLR的69.3%,达到了1000个epoch。

计算成本

在表3中,我们报告了实现的内存和时间成本。端到端案例反映了GPU中的SimCLR成本(而不是[2]中的TPUs)。即使在高端的8-GPU机器上,4k的批处理大小也是难以处理的。而且,在相同的批处理大小为256的情况下,端到端变体在内存和时间上仍然更昂贵,因为它向后传播到q和k编码器,而MoCo只向后传播到q编码器。

表2和表3表明,为了获得良好的准确性,不需要大的训练批处理。我们研究的改进只需要对MoCo v1进行几行代码更改,我们将公开代码以方便将来的研究。

成为VIP会员查看完整内容
0
26

相关内容

现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习

GBM梯度提升机(或梯度推进机)是一种集成学习法(Ensemble)。GBM(Gradient Boosting Machine)算法是Boosting算法(提升方法)的一种。GBM主要思想是基于之前建立的基学习器的损失函数的梯度下降方向来建立下一个新的基学习器,目的就是希望通过集成这些基学习器使得模型总体的损失函数不断下降,模型不断改进。

成为VIP会员查看完整内容
GBM.pdf
0
41

【导读】自监督学习是新的研究热点-【AAAI2020图灵奖得主YannLecun】自监督学习Self-Supervised Learning是未来 。近日,深度学习先驱Geoffrey Hinton领衔的Google大脑团队发布了他们在视觉表示对比学习的最新研究成果-SimLCR,建立了新的SOTA视觉ImageNet识别模型,76.5%的top-1准确度,比以前的水平提高了7%,与监督的ResNet-50的性能相当。并有一系列重要的发现:包括(1) 数据增广的组成在定义有效的预测任务中发挥了至关重要的作用,(2) 引入一个可学的非线性变换在视觉表示和对比损失之间大大提高学习表示的质量,和 (3) 与监督学习相比,对比学习受益于更大的批量尺寸和更多的训练步骤,不得不看!

本文提出了一个简单的视觉表示对比学习(contrastive learning)框架。我们简化了最近提出的对比型自监督学习算法,不需要专门的架构或存储库。为了了解是什么使对比预测任务能学习有用的表示,我们系统地研究了我们提出的框架的主要组成部分。我们表明, (1) 数据增广的组成在定义有效的预测任务中发挥了至关重要的作用,(2) 引入一个可学的非线性变换在视觉表示和对比损失之间大大提高学习表示的质量,和 (3) 与监督学习相比,对比学习受益于更大的批量尺寸和更多的训练步骤。结合这些发现,我们能够在很大程度上超越以往的方法,在ImageNet上进行自监督和半监督学习。在SimCLR学习的自监督表示上训练的线性分类器实现了76.5%的top-1准确度,比以前的水平提高了7%,与监督的ResNet-50的性能相当。当仅对1%的标签进行微调时,我们实现了85.8%的前5名准确度,以100倍的标签数超过了AlexNet。

概述

学习没有人类监督的有效视觉表示是一个长期存在的问题。大多数主流方法可分为两类:生成式和判别式。生成式方法学习在输入空间中生成或以其他方式建模像素 (Hinton et al., 2006; Kingma & Welling, 2013; Goodfellow et al., 2014)。然而,像素级的生成在计算上是昂贵的,而且对于表示学习可能不是必需的。判别方法使用与监督学习类似的目标函数来学习表示,但是训练网络执行下游任务,其中输入和标签都来自未标记的数据集。许多这类方法依赖于启发法来设计下游任务(Doersch et al., 2015; Zhang et al., 2016; Noroozi & Favaro, 2016; Gidaris et al., 2018),这可能限制了学习表示的普遍性。基于潜在空间中的对比学习的判别方法最近显示出了巨大的潜力,取得了最先进的结果(Hadsell et al., 2006; Dosovitskiy et al., 2014; Oord et al., 2018; Bachman et al., 2019)。

图1: ImageNet top-1在不同自监督方法学习的表示上训练的线性分类器的精度(在ImageNet上预先训练)。灰色十字表示有监督的ResNet-50。我们的方法SimCLR以粗体显示。

在这项工作中,我们介绍了视觉表示对比学习的一个简单框架,我们称之为SimCLR。SimCLR不仅优于以前的工作(图1),而且更简单,不需要专门的架构(Bachman et al., 2019; Hénaff et al., 2019)或者存储池 (Wu et al., 2018; Tian et al., 2019; He et al., 2019a; Misra & van der Maaten, 2019)。

为了了解是什么使好的对比表示学习成为可能,我们系统地研究了我们的框架的主要组成部分,并表明:

  • [topsep=0pt, partopsep=0pt, leftmargin=13pt, parsep=0pt, itemsep=4pt]

  • 在定义产生有效表示的对比预测任务时,多个数据增强操作的组合是至关重要的。另外,无监督对比学习比监督学习具有更强的数据增强性。

  • 在表示和对比损失之间引入一个可学习的非线性变换,极大地提高了学习表示的质量。

  • 具有对比交叉熵损失的表示法学习得益于归一化嵌入和适当调整的温度参数。

  • 与监督学习相比,对比学习受益于更大的批量和更长的训练。与监督学习一样,对比学习也受益于更深更广的网络。

我们结合这些发现,在ImageNet ILSVRC-2012上实现了一种新的自监督和半监督学习(Russakovsky et al., 2015)。** 在线性评价方案下,SimCLR达到了76.5%的top-1准确率,相对于之前的最先进水平(Henaff et al., 2019)提高了7%。当仅使用1%的ImageNet标签进行微调时,SimCLR达到了85.8%的top-5准确率,相对提高了10% (Henaff et al., 2019)。当对其他自然图像分类数据集进行微调时,SimCLR在12个数据集中的10个上的表现与强监督基线(Kornblith et al., 2019)相当或更好。**

成为VIP会员查看完整内容
0
28
小贴士
相关VIP内容
专知会员服务
29+阅读 · 2020年3月3日
相关论文
Qizhe Xie,Eduard Hovy,Minh-Thang Luong,Quoc V. Le
14+阅读 · 2019年11月11日
Question Generation by Transformers
Kettip Kriangchaivech,Artit Wangperawong
3+阅读 · 2019年9月14日
Kaiming He,Ross Girshick,Piotr Dollár
8+阅读 · 2018年11月21日
Learning Visual Question Answering by Bootstrapping Hard Attention
Mateusz Malinowski,Carl Doersch,Adam Santoro,Peter Battaglia
4+阅读 · 2018年8月1日
Doubly Attentive Transformer Machine Translation
Hasan Sait Arslan,Mark Fishel,Gholamreza Anbarjafari
4+阅读 · 2018年7月30日
Meta-Learning with Latent Embedding Optimization
Andrei A. Rusu,Dushyant Rao,Jakub Sygnowski,Oriol Vinyals,Razvan Pascanu,Simon Osindero,Raia Hadsell
6+阅读 · 2018年7月16日
Myle Ott,Sergey Edunov,David Grangier,Michael Auli
3+阅读 · 2018年6月1日
Guillaume Lample,Myle Ott,Alexis Conneau,Ludovic Denoyer,Marc'Aurelio Ranzato
4+阅读 · 2018年4月20日
Ilya Tolstikhin,Olivier Bousquet,Sylvain Gelly,Bernhard Schoelkopf
6+阅读 · 2018年3月12日
Amith R Mamidala,Georgios Kollias,Chris Ward,Fausto Artico
4+阅读 · 2018年1月11日
Top