集多种半监督学习范式为一体,谷歌新研究提出新型半监督方法 MixMatch

2019 年 6 月 3 日 机器之心
集多种半监督学习范式为一体,谷歌新研究提出新型半监督方法 MixMatch

选自arXiv

作者:David Berthelot等

机器之心编译

与:王子嘉、路

谷歌研究者通过融合多种主流半监督学习范式,提出了一种新算法 MixMatch。该算法在多个数据集上获得了当前最优结果,且明显优于次优算法。

事实证明,半监督学习可以很好地利用无标注数据,从而减轻对大型标注数据集的依赖。而谷歌的一项研究将当前主流的半监督学习方法统一起来,得到了一种新算法 MixMatch。该算法可以为数据增强得到的无标注样本估计(guess)低熵标签,并利用 MixUp 来混合标注和无标注数据。实验表明,MixMatch 在许多数据集和标注数据上获得了 STOA 结果,展现出巨大优势。例如,在具有 250 个标签的 CIFAR-10 数据集上,MixMatch 将错误率降低了 71%(从 38% 降至 11%),在 STL-10 上错误率也降低了 2 倍。对于差分隐私 (differential privacy),MixMatch 可以在准确率与隐私间实现更好的权衡。最后,研究者通过模型简化测试对 MixMatch 进行了分析,以确定哪些组件对该算法的成功最为重要。


缺少数据怎么办


近期大型深度神经网络取得的成功很大程度上归功于大型标注数据集的存在。然而,对于许多学习任务来说,收集标注数据成本很高,因为它必然涉及专家知识。医学领域就是一个很好的例子,在医学任务中,测量数据出自昂贵的机器,标签则来自于多位人类专家耗时耗力的分析。此外,数据标签可能包含一些隐私类的敏感信息。相比之下,在许多任务中,获取无标注数据要容易得多,成本也低得多。


半监督学习 (SSL) 旨在通过在模型中使用无标注数据,来大大减轻对标注数据的需求。近期许多半监督学习方法都增加了一个损失项,该损失项基于无标注数据计算,以促进模型更好地泛化到未知数据。在最近的工作中,该损失项一般分为三类:熵最小化 [17, 28]——促使模型输出对无标注数据的可信预测;一致性正则化(consistency regularization)——促使模型在其输入受到扰动时产生相同的输出分布;通用正则化(generic regularization)——促使模型很好地泛化,并避免出现对训练数据的过拟合。


谷歌的解决方案


谷歌的这项研究中介绍了一种新型半监督学习算法 MixMatch。该算法引入了单个损失项,很好地将上述主流方法统一到半监督学习中。与以前的方法不同,MixMatch 同时针对所有属性,从而带来以下优势:


  • 实验表明,MixMatch 在所有标准图像基准上都获得了 STOA 结果。例如,在具备 250 个标签的 CIFAR-10 数据集上获得了 11.08% 的错误率(第二名的错误率为 38%);

  • 模型简化测试表明,MixMatch 比其各部分的总和要好;

  • MixMatch 有助于差分隐私学习 (differentially private learning),使 PATE 框架 [34] 中的学生能够获得新的 STOA 结果,该结果在增强隐私保障的同时,也提升了准确率。


简而言之,MixMatch 为无标注数据引入了一个统一的损失项,它在很好地减少了熵的同时也能够保持一致性,以及保持与传统正则化技术的兼容。


图 1:MixMatch 中使用的标签估计过程图。对无标注图像使用 k 次随机数据增强,并将每张增强图像馈送到分类器中。然后,通过调整分布的温度来「锐化」这 K 次预测的平均值。完整说明参见算法 1。


MixMatch 


半监督学习方法 MixMatch 是一种「整体」方法,它结合了半监督学习主流范式的思想和组件。给定一组标注实例 X 及其对应的 one-hot 目标(代表 L 个可能标签中的一个)和一组同样大小的无标注实例 U,MixMatch 可以生成一组增强标注实例 X' 和一组带有「估计」标签的增强无标注实例 U'。然后分别使用 U' 和 X' 计算无标注损失和标注损失。下式即为半监督学习的组合损失 L:



其中 H(p, q) 是分布 p 和 q 之间的交叉熵,T、K、α 和 λ_U 是下面算法 1 中的超参数。下图展示了完整的 MixMatch 算法和图 1 中展示的标签估计过程。



实验


为了测试 MixMatch 的有效性,研究者在半监督学习基准上测试其性能,并执行模型简化测试,梳理 MixMatch 各个组件的作用。


研究者首先评估了 MixMatch 在四个基准数据集上的性能,分别是 CIFAR-10、CIFAR-100、SVHN 和 STL-10。其中前三个数据集是监督学习常用的图像分类基准;利用这些数据集评估半监督学习的标准方法是将数据集中的大部分数据视为无标注的,将一小部分(例如几百或数千个标签)作为标注数据。STL-10 是专为半监督学习设计的数据集,包含 5000 个标注图像和 100,000 个无标注图像,无标注图像的分布与标注数据略有不同。


对于 CIFAR-10,研究者使用 250 到 4000 个不同数量的标注样本来评估每种方法的准确率(标准做法)。结果如图 2 所示。


图 2:对于不同数量的标签,MixMatch 与基线方法在 CIFAR-10 上的错误率对比。「Supervised」表示所有 50000 个训练样本都是标注数据。当使用 250 个标注数据时,MixMatch 的错误率与使用 4000 个标签的次优方法性能相当。


研究者还在具备 10000 个标签的 CIFAR-100 数据集上评估了基于较大模型的 MixMatch,并与 [2] 的结果进行了对比。结果如表 1 所示。


表 1:使用较大模型(2600 万个参数)在 CIFAR-10 和 CIFAR-100 数据集上的错误率对比。


作为标准方法,研究者首先考虑将有 73257 个实例的训练集分割为标注数据和无标注数据的情况。结果如图 3 所示。


图 3:使用不同数量的标签时,MixMatch 与基线方法在 SVHN 数据集上的错误率比较。「Supervised」指所有 73257 个训练实例均为标注数据。在使用 250 个标注样本时,MixMatch 就几乎达到了 Supervised 模型的监督训练准确率。


表 2:MixMatch 与其他方法在 STL-10 数据集上的错误率对比,分为全为标注数据(5000 个)与只使用 1000 个标注数据(其余为无标注数据)两种实验设置。


由于 MixMatch 结合了多种半监督学习机制,它与文献中已有的方法有很多相似之处。因此,研究者通过增删模型组件研究各个组件对模型性能的影响,以便更好地了解哪些组件为 MixMatch 提供更多贡献。


表 4:模型简化测试结果。MixMatch 及其各种「变体」在 CIFAR-10 数据集上的错误率对比,分为 250 个标注数据和 4000 个标注数据两种情况。ICT 使用 EMA 参数和无标注 mixup,无锐化。


目前,该研究代码已公开。GitHub 地址:https://github.com/google-research/mixmatch


论文链接:https://arxiv.org/abs/1905.02249



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

登录查看更多
9

相关内容

半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习目前正越来越受到人们的重视。

​【导读】图像分类是计算机视觉中的基本任务之一,深度学习的出现是的图像分类技术趋于完善。最近,自监督学习与预训练技术的发展使得图像分类技术出现新的变化,这篇论文概述了最新在实际情况中少标签小样本等情况下,关于自监督学习、半监督、无监督方法的综述,值得看!

地址:

https://www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132

摘要

虽然深度学习策略在计算机视觉任务中取得了突出的成绩,但仍存在一个问题。目前的策略严重依赖于大量的标记数据。在许多实际问题中,创建这么多标记的训练数据是不可行的。因此,研究人员试图将未标记的数据纳入到培训过程中,以获得与较少标记相同的结果。由于有许多同时进行的研究,很难掌握最近的发展情况。在这项调查中,我们提供了一个概述,常用的技术和方法,在图像分类与较少的标签。我们比较了21种方法。在我们的分析中,我们确定了三个主要趋势。1. 基于它们的准确性,现有技术的方法可扩展到实际应用中。2. 为了达到与所有标签的使用相同的结果所需要的监督程度正在降低。3.所有方法都共享公共技术,只有少数方法结合这些技术以获得更好的性能。基于这三个趋势,我们发现了未来的研究机会。

1. 概述

深度学习策略在计算机视觉任务中取得了显著的成功。它们在图像分类、目标检测或语义分割等各种任务中表现最佳。

图1: 这张图说明并简化了在深度学习训练中使用未标记数据的好处。红色和深蓝色的圆圈表示不同类的标记数据点。浅灰色的圆圈表示未标记的数据点。如果我们只有少量的标记数据可用,我们只能对潜在的真实分布(黑线)做出假设(虚线)。只有同时考虑未标记的数据点并明确决策边界,才能确定这种真实分布。

深度神经网络的质量受到标记/监督图像数量的强烈影响。ImageNet[26]是一个巨大的标记数据集,它允许训练具有令人印象深刻的性能的网络。最近的研究表明,即使比ImageNet更大的数据集也可以改善这些结果。但是,在许多实际的应用程序中,不可能创建包含数百万张图像的标记数据集。处理这个问题的一个常见策略是迁移学习。这种策略甚至可以在小型和专门的数据集(如医学成像[40])上改进结果。虽然这对于某些应用程序来说可能是一个实际的解决方案,但基本问题仍然存在: 与人类不同,监督学习需要大量的标记数据。

对于给定的问题,我们通常可以访问大量未标记的数据集。Xie等人是最早研究无监督深度学习策略来利用这些数据[45]的人之一。从那时起,未标记数据的使用被以多种方式研究,并创造了研究领域,如半监督、自我监督、弱监督或度量学习[23]。统一这些方法的想法是,在训练过程中使用未标记的数据是有益的(参见图1中的说明)。它要么使很少有标签的训练更加健壮,要么在某些不常见的情况下甚至超过了监督情况下的性能[21]。

由于这一优势,许多研究人员和公司在半监督、自我监督和非监督学习领域工作。其主要目标是缩小半监督学习和监督学习之间的差距,甚至超越这些结果。考虑到现有的方法如[49,46],我们认为研究处于实现这一目标的转折点。因此,在这个领域有很多正在进行的研究。这项综述提供了一个概述,以跟踪最新的在半监督,自监督和非监督学习的方法。

大多数综述的研究主题在目标、应用上下文和实现细节方面存在差异,但它们共享各种相同的思想。这项调查对这一广泛的研究课题进行了概述。这次调查的重点是描述这两种方法的异同。此外,我们还将研究不同技术的组合。

2. 图像分类技术

在这一节中,我们总结了关于半监督、自监督和非监督学习的一般概念。我们通过自己对某些术语的定义和解释来扩展这一总结。重点在于区分可能的学习策略和最常见的实现策略的方法。在整个综述中,我们使用术语学习策略,技术和方法在一个特定的意义。学习策略是算法的一般类型/方法。我们把论文方法中提出的每个算法都称为独立算法。方法可以分为学习策略和技术。技术是组成方法/算法的部分或思想。

2.1 分类方法

监督、半监督和自我监督等术语在文献中经常使用。很少有人给出明确的定义来区分这两个术语。在大多数情况下,一个粗略的普遍共识的意义是充分的,但我们注意到,在边界情况下的定义是多种多样的。为了比较不同的方法,我们需要一个精确的定义来区分它们。我们将总结关于学习策略的共识,并定义我们如何看待某些边缘案例。一般来说,我们根据使用的标记数据的数量和训练过程监督的哪个阶段来区分方法。综上所述,我们把半监督策略、自我学习策略和无监督学习策略称为reduced减约监督学习策略。图2展示了四种深度学习策略。

图2: 插图的四个深学习策略——红色和深蓝色的圆圈表示标记数据点不同的类。浅灰色的圆圈表示未标记的数据点。黑线定义了类之间的基本决策边界。带条纹的圆圈表示在训练过程的不同阶段忽略和使用标签信息的数据点。

监督学习 Supervised Learning

监督学习是深度神经网络图像分类中最常用的方法。我们有一组图像X和对应的标签或类z。设C为类别数,f(X)为X∈X的某个神经网络的输出,目标是使输出与标签之间的损失函数最小化。测量f(x)和相应的z之间的差的一个常用的损失函数是交叉熵。

迁移学习

监督学习的一个限制因素是标签的可用性。创建这些标签可能很昂贵,因此限制了它们的数量。克服这一局限的一个方法是使用迁移学习。

迁移学习描述了训练神经网络的两个阶段的过程。第一个阶段是在大型通用数据集(如ImageNet[26])上进行有无监督的训练。第二步是使用经过训练的权重并对目标数据集进行微调。大量的文献表明,即使在小的领域特定数据集[40]上,迁移学习也能改善和稳定训练。

半监督学习

半监督学习是无监督学习和监督学习的混合.

Self-supervised 自监督学习

自监督使用一个借托pretext任务来学习未标记数据的表示。借托pretext任务是无监督的,但学习表征往往不能直接用于图像分类,必须进行微调。因此,自监督学习可以被解释为一种无监督的、半监督的或其自身的一种策略。我们将自我监督学习视为一种特殊的学习策略。在下面,我们将解释我们是如何得出这个结论的。如果在微调期间需要使用任何标签,则不能将该策略称为无监督的。这与半监督方法也有明显的区别。标签不能与未标记的数据同时使用,因为借托pretext任务是无监督的,只有微调才使用标签。对我们来说,将标记数据的使用分离成两个不同的子任务本身就是一种策略的特征。

2.2 分类技术集合

在减少监督的情况下,可以使用不同的技术来训练模型。在本节中,我们将介绍一些在文献中多种方法中使用的技术。

一致性正则化 Consistency regularization

一个主要的研究方向是一致性正则化。在半监督学习过程中,这些正则化被用作数据非监督部分的监督损失的附加损失。这种约束导致了改进的结果,因为在定义决策边界时可以考虑未标记的数据[42,28,49]。一些自监督或无监督的方法甚至更进一步,在训练中只使用这种一致性正则化[21,2]。

虚拟对抗性训练(VAT)

VAT[34]试图通过最小化图像与转换后的图像之间的距离,使预测不受小转换的影响。

互信息(MI)

MI定义为联合分布和边缘分布[8]之间的Kullback Leiber (KL)散度。

熵最小化(EntMin)

Grandvalet和Bengio提出通过最小化熵[15]来提高半监督学习的输出预测。

Overclustering

过度聚类在减少监督的情况下是有益的,因为神经网络可以自行决定如何分割数据。这种分离在有噪声的数据中或在中间类被随机分为相邻类的情况下是有用的。

Pseudo-Labels

一种估计未知数据标签的简单方法是伪标签

3. 图像分类模型

3.1 半监督学习

四种选择的半监督方法的图解——使用的方法在每张图像下面给出。输入在左边的蓝色方框中给出。在右侧提供了该方法的说明。一般来说,这个过程是自上而下组织的。首先,输入图像经过无或两个不同的随机变换预处理。自动增广[9]是一种特殊的增广技术。下面的神经网络使用这些预处理图像(x, y)作为输入。损失的计算(虚线)对于每种方法都是不同的,但是共享公共部分。所有的方法都使用了标记和预测分布之间的交叉熵(CE)。所有的方法还使用了不同预测输出分布(Pf(x), Pf(y))之间的一致性正则化。

3.2 自监督学习

四种选择的自我监督方法的图解——使用的方法在每张图像下面给出。输入在左边的红色方框中给出。在右侧提供了该方法的说明。微调部分不包括在内。一般来说,这个过程是自上而下组织的。首先,对输入图像进行一两次随机变换预处理或分割。下面的神经网络使用这些预处理图像(x, y)作为输入。损失的计算(虚线)对于每种方法都是不同的。AMDIM和CPC使用网络的内部元素来计算损失。DeepCluster和IIC使用预测的输出分布(Pf(x)、Pf(y))来计算损耗

3.3 21种图像分类方法比较

21种图像分类方法及其使用技术的概述——在左侧,第3节中回顾的方法按学习策略排序。第一行列出了在2.2小节中讨论过的可能的技术。根据是否可以使用带标签的数据,将这些技术分为无监督技术和有监督技术。技术的缩写也在第2.2小节中给出。交叉熵(Cross-entropy, CE)将CE的使用描述为训练损失的一部分。微调(FT)描述了交叉熵在初始训练后(例如在一个借口任务中)对新标签的使用。(X)指该技术不是直接使用,而是间接使用。个别的解释由所指示的数字给出。1 - MixMatch通过锐化预测[3],隐式地实现了熵最小化。2 - UDA预测用于过滤无监督数据的伪标签。3 -尽量减少相互信息的目的作为借口任务,例如视图之间的[2]或层之间的[17]。4 -信息的丢失使相互信息间接[43]最大化。5 - Deep Cluster使用K-Means计算伪标签,以优化分配为借口任务。6 - DAC使用元素之间的余弦距离来估计相似和不相似的项。可以说DAC为相似性问题创建了伪标签。

4. 实验比较结果

报告准确度的概述——第一列说明使用的方法。对于监督基线,我们使用了最好的报告结果,作为其他方法的基线。原始论文在准确度后的括号内。第二列给出了体系结构及其参考。第三列是预印本的出版年份或发行年份。最后四列报告了各自数据集的最高准确度分数%。

5 结论

在本文中,我们概述了半监督、自监督和非监督技术。我们用21种不同的方法分析了它们的异同和组合。这项分析确定了几个趋势和可能的研究领域。

我们分析了不同学习策略(半监督学习策略、自监督学习策略和无监督学习策略)的定义,以及这些学习策略中的常用技术。我们展示了这些方法一般是如何工作的,它们使用哪些技术,以及它们可以被归类为哪种策略。尽管由于不同的体系结构和实现而难以比较这些方法的性能,但我们确定了三个主要趋势。

ILSVRC-2012的前5名正确率超过90%,只有10%的标签表明半监督方法适用于现实问题。然而,像类别不平衡这样的问题并没有被考虑。未来的研究必须解决这些问题。

监督和半监督或自监督方法之间的性能差距正在缩小。有一个数据集甚至超过了30%。获得可与全监督学习相比的结果的标签数量正在减少。未来的研究可以进一步减少所需标签的数量。我们注意到,随着时间的推移,非监督方法的使用越来越少。这两个结论使我们认为,无监督方法在未来的现实世界中对图像分类将失去意义。

我们的结论是,半监督和自监督学习策略主要使用一套不同的技术。通常,这两种策略都使用不同技术的组合,但是这些技术中很少有重叠。S4L是目前提出的唯一一种消除这种分离的方法。我们确定了不同技术的组合有利于整体性能的趋势。结合技术之间的微小重叠,我们确定了未来可能的研究机会。

参考文献:

[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.

[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.

[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.

[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.

[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.

成为VIP会员查看完整内容
0
138

半监督学习(Semi-supervised Learning, SSL)提供了一种利用未标记数据改进模型性能的有效方法。Google研究院近期在论文《FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence》中提出了一种简单粗暴却极其有效的半监督学习方法FixMatch。

论文展示了将两种常见半监督学习方法(一致性正则化和伪标签)简单结合后产生的威力。论文提出的FixMatch方法首先利用模型为经过弱增强的无标签图像生成伪标签。对于给定的图像,只有在模型产生高可信预测时,才保留伪标签。然后,该模型被训练来预测当输入同一图像的强增强版本时的伪标签。

尽管这个模型很简单,但论文展示了FixMatch在各种标准的半监督学习基准测试中都取得了最先进的性能,包括在CIFAR-10上使用250个标签获得94.93%的准确率,使用40个标签(相当于每个类只有4个标签)获得88.61%的准确率。由于FixMatch与现有的性能更差的半监督学习方法有许多相似之处,论文中进行了大量的消去测试,以梳理出对FixMatch成功最重要的实验因素。

论文开源了代码:

  • https: //github.com/google-research/fixmatch

简单介绍一下上面提到的两种常见半监督学习方法:

  • 一致性正则化(Consistency Regularization): 它是当前许多最先进的半监督学习算法的重要组成部分。一致性正则化依赖以下假设来利用未标注数据:当输入扰动版本的图像时,模型应该输出相似的预测。

  • 伪标签(Pseudo-labeling): 它的核心思想是利用模型自身来为未标注数据生成标签。该方法几十年前就被提出。伪标签特别指使用“硬”标签(模型输出中概率最高的标签)并且只保留概率大于指定阈值的标签。

FixMatch通过将这两种已有的方法进行简单的组合,取得了惊人的效果:

更多详细内容可以参考论文原文《FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence》:

成为VIP会员查看完整内容
FixMatch Simplifying Semi-Supervised Learning with Consistency and Confidence.pdf
0
52
小贴士
相关资讯
超强半监督学习 MixMatch
极市平台
7+阅读 · 2019年5月22日
已删除
将门创投
8+阅读 · 2019年3月18日
深度思考 | 从BERT看大规模数据的无监督利用
PaperWeekly
11+阅读 · 2019年2月18日
ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取
黑龙江大学自然语言处理实验室
14+阅读 · 2018年12月10日
该如何对「半监督学习算法」实际性应用进行评估?
炼数成金订阅号
6+阅读 · 2018年4月27日
相关论文
Look-into-Object: Self-supervised Structure Modeling for Object Recognition
Mohan Zhou,Yalong Bai,Wei Zhang,Tiejun Zhao,Tao Mei
12+阅读 · 2020年3月31日
Self-Supervised Learning For Few-Shot Image Classification
Da Chen,Yuefeng Chen,Yuhong Li,Feng Mao,Yuan He,Hui Xue
13+阅读 · 2019年11月14日
Pan Li,Alexander Tuzhilin
5+阅读 · 2019年10月11日
Yanbin Liu,Juho Lee,Minseop Park,Saehoon Kim,Eunho Yang,Sung Ju Hwang,Yi Yang
7+阅读 · 2019年2月8日
Yong Wang,Xiao-Ming Wu,Qimai Li,Jiatao Gu,Wangmeng Xiang,Lei Zhang,Victor O. K. Li
9+阅读 · 2018年7月8日
Chaojie Mao,Yingming Li,Yaqing Zhang,Zhongfei Zhang,Xi Li
7+阅读 · 2018年3月7日
Fuzhen Zhuang,Yingmin Zhou,Fuzheng Zhang,Xiang Ao,Xing Xie,Qing He
4+阅读 · 2018年3月5日
Linyuan Gong,Ruyi Ji
8+阅读 · 2018年1月19日
Top
微信扫码咨询专知VIP会员