【导读】自监督学习是新的研究热点-【AAAI2020图灵奖得主YannLecun】自监督学习Self-Supervised Learning是未来 。近日,深度学习先驱Geoffrey Hinton领衔的Google大脑团队发布了他们在视觉表示对比学习的最新研究成果-SimLCR,建立了新的SOTA视觉ImageNet识别模型,76.5%的top-1准确度,比以前的水平提高了7%,与监督的ResNet-50的性能相当。并有一系列重要的发现:包括(1) 数据增广的组成在定义有效的预测任务中发挥了至关重要的作用,(2) 引入一个可学的非线性变换在视觉表示和对比损失之间大大提高学习表示的质量,和 (3) 与监督学习相比,对比学习受益于更大的批量尺寸和更多的训练步骤,不得不看!
本文提出了一个简单的视觉表示对比学习(contrastive learning)框架。我们简化了最近提出的对比型自监督学习算法,不需要专门的架构或存储库。为了了解是什么使对比预测任务能学习有用的表示,我们系统地研究了我们提出的框架的主要组成部分。我们表明, (1) 数据增广的组成在定义有效的预测任务中发挥了至关重要的作用,(2) 引入一个可学的非线性变换在视觉表示和对比损失之间大大提高学习表示的质量,和 (3) 与监督学习相比,对比学习受益于更大的批量尺寸和更多的训练步骤。结合这些发现,我们能够在很大程度上超越以往的方法,在ImageNet上进行自监督和半监督学习。在SimCLR学习的自监督表示上训练的线性分类器实现了76.5%的top-1准确度,比以前的水平提高了7%,与监督的ResNet-50的性能相当。当仅对1%的标签进行微调时,我们实现了85.8%的前5名准确度,以100倍的标签数超过了AlexNet。
概述
学习没有人类监督的有效视觉表示是一个长期存在的问题。大多数主流方法可分为两类:生成式和判别式。生成式方法学习在输入空间中生成或以其他方式建模像素 (Hinton et al., 2006; Kingma & Welling, 2013; Goodfellow et al., 2014)。然而,像素级的生成在计算上是昂贵的,而且对于表示学习可能不是必需的。判别方法使用与监督学习类似的目标函数来学习表示,但是训练网络执行下游任务,其中输入和标签都来自未标记的数据集。许多这类方法依赖于启发法来设计下游任务(Doersch et al., 2015; Zhang et al., 2016; Noroozi & Favaro, 2016; Gidaris et al., 2018),这可能限制了学习表示的普遍性。基于潜在空间中的对比学习的判别方法最近显示出了巨大的潜力,取得了最先进的结果(Hadsell et al., 2006; Dosovitskiy et al., 2014; Oord et al., 2018; Bachman et al., 2019)。
图1: ImageNet top-1在不同自监督方法学习的表示上训练的线性分类器的精度(在ImageNet上预先训练)。灰色十字表示有监督的ResNet-50。我们的方法SimCLR以粗体显示。
在这项工作中,我们介绍了视觉表示对比学习的一个简单框架,我们称之为SimCLR。SimCLR不仅优于以前的工作(图1),而且更简单,不需要专门的架构(Bachman et al., 2019; Hénaff et al., 2019)或者存储池 (Wu et al., 2018; Tian et al., 2019; He et al., 2019a; Misra & van der Maaten, 2019)。
为了了解是什么使好的对比表示学习成为可能,我们系统地研究了我们的框架的主要组成部分,并表明:
[topsep=0pt, partopsep=0pt, leftmargin=13pt, parsep=0pt, itemsep=4pt]
在定义产生有效表示的对比预测任务时,多个数据增强操作的组合是至关重要的。另外,无监督对比学习比监督学习具有更强的数据增强性。
在表示和对比损失之间引入一个可学习的非线性变换,极大地提高了学习表示的质量。
具有对比交叉熵损失的表示法学习得益于归一化嵌入和适当调整的温度参数。
与监督学习相比,对比学习受益于更大的批量和更长的训练。与监督学习一样,对比学习也受益于更深更广的网络。
我们结合这些发现,在ImageNet ILSVRC-2012上实现了一种新的自监督和半监督学习(Russakovsky et al., 2015)。** 在线性评价方案下,SimCLR达到了76.5%的top-1准确率,相对于之前的最先进水平(Henaff et al., 2019)提高了7%。当仅使用1%的ImageNet标签进行微调时,SimCLR达到了85.8%的top-5准确率,相对提高了10% (Henaff et al., 2019)。当对其他自然图像分类数据集进行微调时,SimCLR在12个数据集中的10个上的表现与强监督基线(Kornblith et al., 2019)相当或更好。**