让半监督学习再次伟大!谷歌最新无监督数据增强研究,全面超越现有半监督学习方法

2019 年 7 月 11 日 新智元
让半监督学习再次伟大!谷歌最新无监督数据增强研究,全面超越现有半监督学习方法




  新智元报道  

来源:GoogleAI

编辑:元子

【新智元导读】Google AI最新研究用无监督数据增强推进半监督学习,取得令人瞩目的成果。该方法超越了所有现有的半监督学习方法,并实现了仅使用极少量标记样本即可达到使用大量标记样本训练集的精度。


深度学习之所以能够成功的关键因素,是算法的进步,以及并行处理硬件(GPU / TPU)以及大型标记数据集(如ImageNet)。


然而,当标记数据稀缺时,深度学习就像缺了一条腿。在这种情况下,需要应用数据增强方法,例如对句子进行释义或将图像进行旋转,以有效地增加标记的训练数据的量。


如今,在诸如自然语言处理(NLP),视觉和语音等各种领域的数据增强方法的设计上,已经取得了重大进展。不幸的是,数据增加通常仅限于监督学习,需要标签从原始示例转移到增强示例。




上图:基于文本(顶部)或基于图像(底部)训练数据的示例增强操作。


在谷歌最近“用于一致性训练的无监督数据增强(UDA)”的研究中,证明还可以对未标记数据执行数据增强,以显著改善半监督学习(SSL)。


谷歌的结果促进了半监督学习的复兴,而且还发现3点有趣的现象:(1)SSL可以匹配甚至优于使用数量级更多标记数据的纯监督学习。(2)SSL在文本和视觉两个领域都能很好地工作。(3)SSL能够与迁移学习很好地结合。


此外谷歌还开放了代码在GitHub。


GitHub地址:

https://github.com/google-research/uda


无监督数据扩充


无监督数据增强同时使用标记数据和未标记数据。在标记数据方面,它使用监督学习的标准方法来计算损失函数以训练模型,如下图的左侧部分所示。


而对于未标记的数据,则应用一致性训练来强制预测未标记的示例和增强的未标记示例是否相似,如下图的右侧部分所示。



这里,相同的模型被同时应用于未标记的示例和增强的对应物,以产生两个模型预测,从中计算一致性损失(即,两个预测分布之间的距离)。


然后,UDA通过联合优化标记数据的监督损失和未标记数据的无监督一致性损失,来计算最终损失。


通过最小化一致性损失,UDA允许标签信息从标记的示例平滑地传播到未标记的示例。


直觉上,人们可以将UDA视为隐含的迭代过程:该模型依赖于少量标记的示例,来对一些未标记的示例进行正确的预测,从中通过一致性损失,并将标签信息传播到增强的对应物。随着时间的推移,越来越多未标记的示例终将被正确预测,这反映了模型的改进的泛化。


谷歌对各种其他类型的噪声进行一致性训练测试(例如高斯噪声、对抗性噪声等)后,在各种各样的噪声上实现了最先进的性能。


UDA根据任务应用不同的现有增强方法,包括反向翻译、自动增强和TF-IDF单词替换。


新的NLP和计算机视觉的基准


UDA在低数据体系中出乎意料地有效。只用20个标记示例,UDA通过50000个未标记的示例,在IMDb情绪分析任务中实现了4.20的错误率。


该结果优于先前使用25000个标记示例训练的最先进模型(错误率为4.32)。在大数据制度中,通过完整的训练集,UDA也提供了强大的收益。


IMDb的基准,是一种情绪分析任务。UDA在不同培训规模的监督学习中超越了最先进的成果,如下图。



在CIFAR-10半监督学习基准测试中,UDA的表现同样优于所有现有的SSL方法,如VAT、ICT和MixMatch。


在4k示例情况下,UDA实现了5.27的错误率,与使用50k示例的完全监督模型的性能相匹配。


此外,通过更先进的PyramidNet+ShakeDro架构p,UDA实现了2.7的新的最新错误率,与之前的最佳半监督结果相比,错误率降低了45%以上。


在SVHN上,UDA仅使用250个标记示例,就实现了2.85的错误率,与使用70k标记示例训练的完全监督模型的性能相匹配。



CIFAR-10的SSL基准测试,图像分类任务。UDA超越了所有现有的半监督学习方法,所有这些方法都使用Wide-ResNet-28-2架构。在4000个示例中,UDA将完全监督设置的性能与50000个示例相匹配。


在具有10%标记示例的ImageNet上,UDA将TOP 1精度从55.1%提高到68.7%。


在具有完全标记集和1.3M额外未标记示例的高数据体系中,UDA继续为前1精度提供78.3%至79.0%的增益。


参考链接:

https://ai.googleblog.com/2019/07/advancing-semi-supervised-learning-with.html



登录查看更多
20

相关内容

半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习目前正越来越受到人们的重视。

现实世界中的对象频率通常遵循幂次定律,导致机器学习模型所看到的具有长尾类分布的数据集与我们对模型在所有类上表现良好的期望之间的不匹配。我们从领域适应的角度来分析这种不匹配。首先,我们将现有的长尾分类的类平衡方法与目标移位相联系,这是一个在领域适应方面得到充分研究的场景。这种联系表明,这些方法隐含地假设训练数据和测试数据共享相同的类条件分布,这种分布在一般情况下不成立,尤其是尾部类。虽然头类可以包含丰富多样的训练示例,很好地表示推断时的预期数据,但尾部类通常缺乏代表性的训练数据。为此,我们建议通过元学习方法显式地估计类条件分布之间的差异来扩充经典的类平衡学习。我们用6个基准数据集和3个损失函数验证了我们的方法。

成为VIP会员查看完整内容
0
22

【导读】如何利用未标记数据进行机器学习是当下研究的热点。最近自监督学习、对比学习等提出用于解决该问题。最近来自Google大脑团队的Luong博士介绍了无标记数据学习的进展,半监督学习以及他们最近重要的两个工作:无监督数据增强和自训练学习,是非常好的前沿材料。

深度学习尽管取得了很大成功,但通常在小标签训练集中表现不佳。利用未标记数据改善深度学习一直是一个重要的研究方向,其中半监督学习是最有前途的方法之一。在本次演讲中,Luong博士将介绍无监督数据增强(UDA),这是我们最近的半监督学习技术,适用于语言和视觉任务。使用UDA,我们仅使用一个或两个数量级标记较少的数据即可获得最先进的性能。

在本次演讲中,Luong博士首先解释了基本的监督机器学习。在机器学习中,计算机视觉的基本功能是利用图像分类来识别和标记图像数据。监督学习需要输入和标签才能与输入相关联。通过这样做,您可以教AI识别图像是什么,无论是对象,人类,动物等。Luong博士继续进一步解释神经网络是什么,以及它们如何用于深度学习。这些网络旨在模仿人类大脑的功能,并允许AI自己学习和解决问题。

成为VIP会员查看完整内容
0
80

​【导读】图像分类是计算机视觉中的基本任务之一,深度学习的出现是的图像分类技术趋于完善。最近,自监督学习与预训练技术的发展使得图像分类技术出现新的变化,这篇论文概述了最新在实际情况中少标签小样本等情况下,关于自监督学习、半监督、无监督方法的综述,值得看!

地址:

https://www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132

摘要

虽然深度学习策略在计算机视觉任务中取得了突出的成绩,但仍存在一个问题。目前的策略严重依赖于大量的标记数据。在许多实际问题中,创建这么多标记的训练数据是不可行的。因此,研究人员试图将未标记的数据纳入到培训过程中,以获得与较少标记相同的结果。由于有许多同时进行的研究,很难掌握最近的发展情况。在这项调查中,我们提供了一个概述,常用的技术和方法,在图像分类与较少的标签。我们比较了21种方法。在我们的分析中,我们确定了三个主要趋势。1. 基于它们的准确性,现有技术的方法可扩展到实际应用中。2. 为了达到与所有标签的使用相同的结果所需要的监督程度正在降低。3.所有方法都共享公共技术,只有少数方法结合这些技术以获得更好的性能。基于这三个趋势,我们发现了未来的研究机会。

1. 概述

深度学习策略在计算机视觉任务中取得了显著的成功。它们在图像分类、目标检测或语义分割等各种任务中表现最佳。

图1: 这张图说明并简化了在深度学习训练中使用未标记数据的好处。红色和深蓝色的圆圈表示不同类的标记数据点。浅灰色的圆圈表示未标记的数据点。如果我们只有少量的标记数据可用,我们只能对潜在的真实分布(黑线)做出假设(虚线)。只有同时考虑未标记的数据点并明确决策边界,才能确定这种真实分布。

深度神经网络的质量受到标记/监督图像数量的强烈影响。ImageNet[26]是一个巨大的标记数据集,它允许训练具有令人印象深刻的性能的网络。最近的研究表明,即使比ImageNet更大的数据集也可以改善这些结果。但是,在许多实际的应用程序中,不可能创建包含数百万张图像的标记数据集。处理这个问题的一个常见策略是迁移学习。这种策略甚至可以在小型和专门的数据集(如医学成像[40])上改进结果。虽然这对于某些应用程序来说可能是一个实际的解决方案,但基本问题仍然存在: 与人类不同,监督学习需要大量的标记数据。

对于给定的问题,我们通常可以访问大量未标记的数据集。Xie等人是最早研究无监督深度学习策略来利用这些数据[45]的人之一。从那时起,未标记数据的使用被以多种方式研究,并创造了研究领域,如半监督、自我监督、弱监督或度量学习[23]。统一这些方法的想法是,在训练过程中使用未标记的数据是有益的(参见图1中的说明)。它要么使很少有标签的训练更加健壮,要么在某些不常见的情况下甚至超过了监督情况下的性能[21]。

由于这一优势,许多研究人员和公司在半监督、自我监督和非监督学习领域工作。其主要目标是缩小半监督学习和监督学习之间的差距,甚至超越这些结果。考虑到现有的方法如[49,46],我们认为研究处于实现这一目标的转折点。因此,在这个领域有很多正在进行的研究。这项综述提供了一个概述,以跟踪最新的在半监督,自监督和非监督学习的方法。

大多数综述的研究主题在目标、应用上下文和实现细节方面存在差异,但它们共享各种相同的思想。这项调查对这一广泛的研究课题进行了概述。这次调查的重点是描述这两种方法的异同。此外,我们还将研究不同技术的组合。

2. 图像分类技术

在这一节中,我们总结了关于半监督、自监督和非监督学习的一般概念。我们通过自己对某些术语的定义和解释来扩展这一总结。重点在于区分可能的学习策略和最常见的实现策略的方法。在整个综述中,我们使用术语学习策略,技术和方法在一个特定的意义。学习策略是算法的一般类型/方法。我们把论文方法中提出的每个算法都称为独立算法。方法可以分为学习策略和技术。技术是组成方法/算法的部分或思想。

2.1 分类方法

监督、半监督和自我监督等术语在文献中经常使用。很少有人给出明确的定义来区分这两个术语。在大多数情况下,一个粗略的普遍共识的意义是充分的,但我们注意到,在边界情况下的定义是多种多样的。为了比较不同的方法,我们需要一个精确的定义来区分它们。我们将总结关于学习策略的共识,并定义我们如何看待某些边缘案例。一般来说,我们根据使用的标记数据的数量和训练过程监督的哪个阶段来区分方法。综上所述,我们把半监督策略、自我学习策略和无监督学习策略称为reduced减约监督学习策略。图2展示了四种深度学习策略。

图2: 插图的四个深学习策略——红色和深蓝色的圆圈表示标记数据点不同的类。浅灰色的圆圈表示未标记的数据点。黑线定义了类之间的基本决策边界。带条纹的圆圈表示在训练过程的不同阶段忽略和使用标签信息的数据点。

监督学习 Supervised Learning

监督学习是深度神经网络图像分类中最常用的方法。我们有一组图像X和对应的标签或类z。设C为类别数,f(X)为X∈X的某个神经网络的输出,目标是使输出与标签之间的损失函数最小化。测量f(x)和相应的z之间的差的一个常用的损失函数是交叉熵。

迁移学习

监督学习的一个限制因素是标签的可用性。创建这些标签可能很昂贵,因此限制了它们的数量。克服这一局限的一个方法是使用迁移学习。

迁移学习描述了训练神经网络的两个阶段的过程。第一个阶段是在大型通用数据集(如ImageNet[26])上进行有无监督的训练。第二步是使用经过训练的权重并对目标数据集进行微调。大量的文献表明,即使在小的领域特定数据集[40]上,迁移学习也能改善和稳定训练。

半监督学习

半监督学习是无监督学习和监督学习的混合.

Self-supervised 自监督学习

自监督使用一个借托pretext任务来学习未标记数据的表示。借托pretext任务是无监督的,但学习表征往往不能直接用于图像分类,必须进行微调。因此,自监督学习可以被解释为一种无监督的、半监督的或其自身的一种策略。我们将自我监督学习视为一种特殊的学习策略。在下面,我们将解释我们是如何得出这个结论的。如果在微调期间需要使用任何标签,则不能将该策略称为无监督的。这与半监督方法也有明显的区别。标签不能与未标记的数据同时使用,因为借托pretext任务是无监督的,只有微调才使用标签。对我们来说,将标记数据的使用分离成两个不同的子任务本身就是一种策略的特征。

2.2 分类技术集合

在减少监督的情况下,可以使用不同的技术来训练模型。在本节中,我们将介绍一些在文献中多种方法中使用的技术。

一致性正则化 Consistency regularization

一个主要的研究方向是一致性正则化。在半监督学习过程中,这些正则化被用作数据非监督部分的监督损失的附加损失。这种约束导致了改进的结果,因为在定义决策边界时可以考虑未标记的数据[42,28,49]。一些自监督或无监督的方法甚至更进一步,在训练中只使用这种一致性正则化[21,2]。

虚拟对抗性训练(VAT)

VAT[34]试图通过最小化图像与转换后的图像之间的距离,使预测不受小转换的影响。

互信息(MI)

MI定义为联合分布和边缘分布[8]之间的Kullback Leiber (KL)散度。

熵最小化(EntMin)

Grandvalet和Bengio提出通过最小化熵[15]来提高半监督学习的输出预测。

Overclustering

过度聚类在减少监督的情况下是有益的,因为神经网络可以自行决定如何分割数据。这种分离在有噪声的数据中或在中间类被随机分为相邻类的情况下是有用的。

Pseudo-Labels

一种估计未知数据标签的简单方法是伪标签

3. 图像分类模型

3.1 半监督学习

四种选择的半监督方法的图解——使用的方法在每张图像下面给出。输入在左边的蓝色方框中给出。在右侧提供了该方法的说明。一般来说,这个过程是自上而下组织的。首先,输入图像经过无或两个不同的随机变换预处理。自动增广[9]是一种特殊的增广技术。下面的神经网络使用这些预处理图像(x, y)作为输入。损失的计算(虚线)对于每种方法都是不同的,但是共享公共部分。所有的方法都使用了标记和预测分布之间的交叉熵(CE)。所有的方法还使用了不同预测输出分布(Pf(x), Pf(y))之间的一致性正则化。

3.2 自监督学习

四种选择的自我监督方法的图解——使用的方法在每张图像下面给出。输入在左边的红色方框中给出。在右侧提供了该方法的说明。微调部分不包括在内。一般来说,这个过程是自上而下组织的。首先,对输入图像进行一两次随机变换预处理或分割。下面的神经网络使用这些预处理图像(x, y)作为输入。损失的计算(虚线)对于每种方法都是不同的。AMDIM和CPC使用网络的内部元素来计算损失。DeepCluster和IIC使用预测的输出分布(Pf(x)、Pf(y))来计算损耗

3.3 21种图像分类方法比较

21种图像分类方法及其使用技术的概述——在左侧,第3节中回顾的方法按学习策略排序。第一行列出了在2.2小节中讨论过的可能的技术。根据是否可以使用带标签的数据,将这些技术分为无监督技术和有监督技术。技术的缩写也在第2.2小节中给出。交叉熵(Cross-entropy, CE)将CE的使用描述为训练损失的一部分。微调(FT)描述了交叉熵在初始训练后(例如在一个借口任务中)对新标签的使用。(X)指该技术不是直接使用,而是间接使用。个别的解释由所指示的数字给出。1 - MixMatch通过锐化预测[3],隐式地实现了熵最小化。2 - UDA预测用于过滤无监督数据的伪标签。3 -尽量减少相互信息的目的作为借口任务,例如视图之间的[2]或层之间的[17]。4 -信息的丢失使相互信息间接[43]最大化。5 - Deep Cluster使用K-Means计算伪标签,以优化分配为借口任务。6 - DAC使用元素之间的余弦距离来估计相似和不相似的项。可以说DAC为相似性问题创建了伪标签。

4. 实验比较结果

报告准确度的概述——第一列说明使用的方法。对于监督基线,我们使用了最好的报告结果,作为其他方法的基线。原始论文在准确度后的括号内。第二列给出了体系结构及其参考。第三列是预印本的出版年份或发行年份。最后四列报告了各自数据集的最高准确度分数%。

5 结论

在本文中,我们概述了半监督、自监督和非监督技术。我们用21种不同的方法分析了它们的异同和组合。这项分析确定了几个趋势和可能的研究领域。

我们分析了不同学习策略(半监督学习策略、自监督学习策略和无监督学习策略)的定义,以及这些学习策略中的常用技术。我们展示了这些方法一般是如何工作的,它们使用哪些技术,以及它们可以被归类为哪种策略。尽管由于不同的体系结构和实现而难以比较这些方法的性能,但我们确定了三个主要趋势。

ILSVRC-2012的前5名正确率超过90%,只有10%的标签表明半监督方法适用于现实问题。然而,像类别不平衡这样的问题并没有被考虑。未来的研究必须解决这些问题。

监督和半监督或自监督方法之间的性能差距正在缩小。有一个数据集甚至超过了30%。获得可与全监督学习相比的结果的标签数量正在减少。未来的研究可以进一步减少所需标签的数量。我们注意到,随着时间的推移,非监督方法的使用越来越少。这两个结论使我们认为,无监督方法在未来的现实世界中对图像分类将失去意义。

我们的结论是,半监督和自监督学习策略主要使用一套不同的技术。通常,这两种策略都使用不同技术的组合,但是这些技术中很少有重叠。S4L是目前提出的唯一一种消除这种分离的方法。我们确定了不同技术的组合有利于整体性能的趋势。结合技术之间的微小重叠,我们确定了未来可能的研究机会。

参考文献:

[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.

[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.

[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.

[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.

[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.

成为VIP会员查看完整内容
0
138

半监督学习(Semi-supervised Learning, SSL)提供了一种利用未标记数据改进模型性能的有效方法。Google研究院近期在论文《FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence》中提出了一种简单粗暴却极其有效的半监督学习方法FixMatch。

论文展示了将两种常见半监督学习方法(一致性正则化和伪标签)简单结合后产生的威力。论文提出的FixMatch方法首先利用模型为经过弱增强的无标签图像生成伪标签。对于给定的图像,只有在模型产生高可信预测时,才保留伪标签。然后,该模型被训练来预测当输入同一图像的强增强版本时的伪标签。

尽管这个模型很简单,但论文展示了FixMatch在各种标准的半监督学习基准测试中都取得了最先进的性能,包括在CIFAR-10上使用250个标签获得94.93%的准确率,使用40个标签(相当于每个类只有4个标签)获得88.61%的准确率。由于FixMatch与现有的性能更差的半监督学习方法有许多相似之处,论文中进行了大量的消去测试,以梳理出对FixMatch成功最重要的实验因素。

论文开源了代码:

  • https: //github.com/google-research/fixmatch

简单介绍一下上面提到的两种常见半监督学习方法:

  • 一致性正则化(Consistency Regularization): 它是当前许多最先进的半监督学习算法的重要组成部分。一致性正则化依赖以下假设来利用未标注数据:当输入扰动版本的图像时,模型应该输出相似的预测。

  • 伪标签(Pseudo-labeling): 它的核心思想是利用模型自身来为未标注数据生成标签。该方法几十年前就被提出。伪标签特别指使用“硬”标签(模型输出中概率最高的标签)并且只保留概率大于指定阈值的标签。

FixMatch通过将这两种已有的方法进行简单的组合,取得了惊人的效果:

更多详细内容可以参考论文原文《FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence》:

成为VIP会员查看完整内容
FixMatch Simplifying Semi-Supervised Learning with Consistency and Confidence.pdf
0
52
小贴士
相关论文
Varun Kumar,Ashutosh Choudhary,Eunah Cho
8+阅读 · 2020年3月4日
AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning
Jianhong Zhang,Manli Zhang,Zhiwu Lu,Tao Xiang,Jirong Wen
61+阅读 · 2020年2月28日
Yu Cao,Meng Fang,Baosheng Yu,Joey Tianyi Zhou
5+阅读 · 2019年11月13日
Zhenzhong Lan,Mingda Chen,Sebastian Goodman,Kevin Gimpel,Piyush Sharma,Radu Soricut
9+阅读 · 2019年10月30日
Yang Liu
3+阅读 · 2019年9月5日
Confidence-based Graph Convolutional Networks for Semi-Supervised Learning
Shikhar Vashishth,Prateek Yadav,Manik Bhandari,Partha Talukdar
5+阅读 · 2019年2月12日
Yanbin Liu,Juho Lee,Minseop Park,Saehoon Kim,Eunho Yang,Sung Ju Hwang,Yi Yang
7+阅读 · 2019年2月8日
HyperGCN: Hypergraph Convolutional Networks for Semi-Supervised Classification
Naganand Yadati,Madhav Nimishakavi,Prateek Yadav,Anand Louis,Partha Talukdar
11+阅读 · 2018年9月7日
Few Shot Learning with Simplex
Bowen Zhang,Xifan Zhang,Fan Cheng,Deli Zhao
4+阅读 · 2018年7月27日
Yanzhao Zhou,Yi Zhu,Qixiang Ye,Qiang Qiu,Jianbin Jiao
3+阅读 · 2018年4月3日
Top
微信扫码咨询专知VIP会员