【上海交大】半监督学习理论及其研究进展概述

2019 年 6 月 2 日 专知
【上海交大】半监督学习理论及其研究进展概述

【导读】半监督学习介于传统监督学习和无监督学习之间,是一种新型机器学习方法,其思想是在标记样本数量很少的情况下,通过在模型训练中引入无标记样本来 避免传统监督学习在训练样本不足(学习不充分)时出现性能(或模型)退化的问 题。上海交通大学屠恩美和杨杰老师撰写了一篇关于《半监督学习理论及其研究进展概述》论文,详细阐述了最新回顾了半监督学习的发展历程和主要理 论,并介绍了半监督学习研究的最新进展,最后结合应用实例分析了半监督学习在 解决实际问题中的重要作用。

论文地址:

https://arxiv.org/abs/1905.11590

请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“SMLS” 就可以获取《半监督学习进展综述》的下载链接~ 



半监督学习发展综述


传统的监督学习(如支持向量机,神经网络等)通常需要大量的良好标记样本对模型进 行仔细地训练, 以便获得较好的模型泛化能力。同时,由于维度灾难的问题,在处理高维数 据(如视频、语音、图像分类、文档)时,训练一个好的监督模型所需要的标记样本数量会 进一步呈现指数暴增趋势。这使得传统监督学习很难应用于一些缺乏训练样本的任务中。例 如,医学诊断中某些疾病患者数量较少,且部分患者可能有隐私考虑不愿信息被采集使用; 再如,具有破坏性的实验中(汽车碰撞实验、火箭发射、新产品耐用性测试等)也很难收集 到大量的训练样本,因为成本很高。因此,在模型的训练中,如何降低学习模型对标记样本 数据量的需求,同时提高模型学习的性能,成为一个重要的研究问题。



半监督学习(Semi-supervised Learning)是近十多年来发展起来的一类新型机器学习方 法,其思想是在标记样本数量很少的情况下,通过在模型训练中引入无标记样本来避免传统 监督学习在训练样本不足(学习不充分)时出现性能(或模型)退化的问题。半监督学习的 研究具有重要的实用价值,因为在许多实际应用中,一方面标记样本的获取成本往往较高(如 需要花费人力和时间进行标记,需要用到特殊仪器或设备进行实验和测量等);另一方面无 标记样本的获取相对容易,只需要简单重复地采集即可大量收集。因此,在实际应用中减少 标记样本的使用能够大幅缩减人力、时间和资源的开销,从而降低生产成本。同时在标记样本数量减少数十或数百倍(甚至更多)的情况下,算法能够取得与传统大量标记样本训练的 监督学习算法相近甚至更好的效果,提升了生产效率。半监督学习的研究也具有重要的理论 价值,它是介于传统监督学习(只利用标记样本学习)和无监督学习(只利用无标记样本学 习)之间的一种新型机器学习方法,是对传统机器学习理论的拓展和补充。此外,已有的研 究表明人类的学习过程中也存在大量的半监督学习行为,因此半监督学习也对认知科学的发 展起到了一定的促进作用。 


本文首先回顾了半监督学习的发展历程,然后介绍了半监督学习的主要理论和算法,之 后详细介绍了笔者实验室在半监督学习研究方面的最新进展和成果,结合实例分析了半监督 学习在解决实际问题中的重要作用,最后对半监督学习研究进行了总结和展望。与以往的综述[1, 2]相比,本文总结了半监督学习的发展阶段性特点,并对每个阶段的代表性算法进行了 较为全面的综述,另外还包含了其他综述中未曾涉及的最新的半监督深度学习算法。


20 世纪 90 年代就有学者开始尝试在训练分类器时利用无标记样本来提高分类器性能, 但 2000 年后半监督学习才逐步形成相对独立的理论和算法体系,成为有别于传统监督学习 和无监督学习的一类新型机器学习方法。总体来看,半监督学习大概具有以下三个发展阶段 特征:第一个阶段是在上世纪 90 年代期间,人们初步探索无标记样本在一些传统机器学习 算法中的作用,是半监督学习的酝酿阶段;第二阶段是本世纪初的十多年间,形成了独立的 半监督学习算法和理论体系,是经典半监督学习发展趋于成熟阶段;第三个阶段是最近几年, 由于深度学习的巨大成功和普及应用的需求,半监督学习与深度神经网络结合形成的半监督 深度学习成为研究热点,把半监督学习研究推向新的高度。下面我们对每个阶段的代表性算 法进行介绍。


半监督学习的早期阶段


早期的半监督学习是初步探索无标记样本在传统监督学习模型中的价值[3],学习算法多 数是对传统的机器学习算法进行改进,通过在监督学习中加入无标记样本来实现。这类算法 有最大似然分类器[4, 5],贝叶斯分类器 (Bayes Classifier)[6, 7],多层感知器[8],支持向量机[9, 10] 等。早期半监督学习算法中有较大影响力的是半监督支持向量机(Semi-supervised Support Vector Machine, S3VM)和协同训练(Co-training)。 


S3VM 源于 Vapnik20 世纪 90 年代末的直推式支持向量机(Transductive SVM)研究[11]:在 给定较少标记的训练样本情况下,支持向量机的决策边界(Decision Boundary)不应该穿过样 本密度高的区域。因此,S 3VM 的目标函数是在传统的支持向量机目标函数基础上,增加了 一个包含无标记样本的约束项来惩罚分类超平面穿过样本密集区域的情况。修改后的目标函 数是一个非凸的组合优化问题,直接求解难度较大且计算量会随着数据集的增大而指数暴增, 因此初期的求解算法基本很难在实际应用中使用。Joachims 提出了基于标记切换的组合优化 算法[12],第一次使 S3VM 在具有实用意义的数据集上取得了很好的效果。之后更多的学者 开始关注 S3VM,相继出现了不同的求解方法,其中较有影响的算法包括半正定规划 (Semi-definite Programming)[13-16]算法,凹凸过程(Concave Convex Procedure)[17-19],延续法 (Continuation)[20], 梯度下降[21],确定性退火(Deterministic Annealing) [22]等。另外,为了避 免算法把所有样本放在决策边界的同一边这种无意义的求解,文献[12, 20, 21]中还探讨了施 加平衡约束(Balancing Constraint)情况下的 S3VM 问题求解。 


协同训练[23]假设数据本身具有多个相互独立的视角(Multi-view),且每个视角都可以 独立对数据进行分类。针对数据的每个视角,协同训练首先用标记样本训练一个该视角对应 的分类器,然后不同视角的分类器对无标记样本进行分类,每个视角的分类器都把自己认为 可靠度较高的无标记样本连同其对应的分类标记加入到其他视角分类器的训练数据集中,最 后所有分类器利用各自更新后的训练集进行二次训练,如此重复直到完成分类。文献[24]中 进一步分析了协同训练能够取得好的效果的原因,同时讨论了协同训练假设不成立时的情况。 文献[25]中提出了弱化假设的协同训练,并进行了理论分析。协同学习在自然语言处理中有 着重要的的应用,包括语意解析[26],语意标注[27],词语的同指解析[28],歧义去除[29],跨语 言情感分类[30]等。


半监督学习的成熟阶段


由于 S3VM 是非凸离散组合优化,求解难度大且很难获得全局最优解,同时协同训练假 设条件苛刻等,人们开始尝试其他方法进行半监督学习。2000 年后的十多年间大量的半监 督学习算法开始涌现,这时期的标志是“半监督学习”的概念被明确提出并形成了崭新的算 法体系,使半监督学习逐渐形成相对独立的、区别于传统监督学习和无监督学习的一类学习 方法。这个时期的半监督学习主要包括混合模型(Mixture Model)[31-34]、伪标记或自训练 (Pseudo Label, Self-training)[29, 35-37]、图论半监督学习[38-40]、流形半监督学习[41-43]等。与其他 类型的半监督学习算法相比,基于图论的半监督学习算法有许多优势,如算法多数为凸优化, 可求得全局最优解,有些甚至具有闭合数学表达式;算法基于矩阵运算操作,效率较高且便 于理解和实现;图论是数学的一个分支,具有很好的理论基础等,因此受到了广泛的关注。

 图论半监督学习需要首先构建一个图 (Graph), 图的节点集就是所有样本集(包括标记 样本和无标记样本),图的边是样本两两间的相似性(通常使用高斯核函数作为相似性度量), 然后把分类问题看作是类别信息在图上由标记节点向无标记节点的扩散或传播过程。代表性 的算法包括:文献[38]利用图论中的最小切割(Min-cut)算法来对无标记样本进行分类,文献 [44]中把学习过程看作是样本的类别标记在图上的不断扩散和传播,文献[39]中通过求解高 斯场谐函数(Gaussian Field Harmonic Function, GFHF)来实现对图上的无标记样本进行分类, 稍后文献[40]中提出基于网络的动态传播思想的局部和全局一致性(Local and Global Consistency, LGC)半监督学习算法。GFHF 和 LGC 两个算法都具有很好的理论框架,以及具 有闭合解析式的全局最优解,同时算法易于实现,在实际应用中效果突出,因此引起了学者 们的广泛关注,成为图论半监督学习的经典算法代表。二者同属于直推式学习(Transductive Learning)方式,即算法只能在参与学习过程的数据集上学习出一个模型,因此对于后续的新 样本无法直接给出分类。但二者相比,LGC 算法对样本的标记具有更好的容错性(因为采 用的是软约束,而不像 GFHF 中强制的硬性约束),而且实际应用时效果也往往更好。文献 [45]中把这两个算法统一在一个理论模型中,并在此基础上提出了基于 Nystrom 核矩阵近似 的快速算法,以解决图论半监督学习在大数据集上计算复杂度高、内存消耗大的问题。文献 [46]在 LGC 算法的基础上采用了局部线性重构的方式构建图,提出线性邻域标记传播(Linear Neighborhood Label Propagation)算法,受到较多关注。因为图论半监督学习需要构建一个包 含所有样本的图,而且求解算法时间和空间复杂度通常是样本的三次方,这带来的一个难题 是如何在大数据集上进行学习,文献[47, 48]中对超大型的数据集上如何进行半监督学习做 了研究。需要说明的是,图论半监督学习中还有许多其他算法和相关研究,在此无法一一列 举。例如,文献[49]中分析了图的构建方式对算法性能的影响并提出了一种 b-Matching 图提 升算法精度,文献[50]中研究了基于有向图的半监督学习,文献[51]中研究了多图组合下的 半监督学习,文献[52]中研究了半监督的降维算法,文献[53]中探讨了参数学习问题等等。 


半监督学习研究中,与图论密切相关的另一个理论是微分流形理论。在一定条件下,图 论中的拉普拉斯矩阵可以看成是流形上的拉普拉斯-贝尔特拉米算子(Laplace-Beltrami Operator)的离散化[54-56]。因此,以图论作为工具,基于微分流形理论的半监督学习算法也受 到 广 泛 关 注 。 这 其 中 的 代 表 算 法 是 Belkin 等 提 出 的 流 形 正 则 化 算 法 (Manifold Regularization)[41, 42, 57],其目标是在高维的数据空间中,通过惩罚分类函数在样本所分布的 低维流形上的复杂度来实现无标记样本的利用。其他基于微分流形理论的半监督学习算法包 括黎曼流形(Riemannian Manifold)半监督学习[43],海森正则化(Hessian Regularization)半监督 学习[58],局部坐标编码(Local Coordinate Coding)半监督学习[59],多流形半监督学习[60]等。

半监督深度学习的发展 


随着深度学习在图像识别[61]、自然语言处理[62]和语音识别[63]等方面取得突破,半监督 深度学习算法研究就成了自然的需求,因为深度学习普及应用的障碍之一就是对海量标记样 本的需求在很多应用中难以被满足。较早进行半监督深度学习研究的是 Weston 等[64],他们 尝试把图论半监督学习中的拉普拉斯正则项引入到神经网络的目标函数中,对多层神经网络 进行半监督训练。总结起来,已有的半监督深度学习算法可归为三类:无监督特征学习类, 正则化约束类和生成式对抗网络(Generative Adversarial Nets, GAN)类。 


无监督特征学习类算法通常利用所有样本(包含标记样本和无标记样本)学习出样本的隐特征或隐含变量表示(Latent Feature or Hidden Variable),在此基础上利用有监督分类器对 无标记样本所对应的隐特征进行分类,从而间接地对无标记样本进行分类。文献[65]中采用 叠加的生成模型来学习标记样本和无标记样本的隐变量并使用 SVM 对学习的隐变量进行分 类。文献[66]中首先采用局部区域卷积(Local Region Convolution)在无标记的文本中学习出双 视嵌入(Two-View (TV) Embedding)特征,然后采用卷积神经网络进行分类。随后文献[67]中 又对该算法进行了拓展,采用 LSTM (Long Short-Term Memory)进行区域大小可变的文本特 征学习。文献[68]中把自编码器(Auto-Encoder)的编码层和解码层之间加入短路连接,然后使 用分类器对自编码器学习的特征进行分类。文献[69]中把自编码器按顺序拼接在一起,通过 最小化这些自编码器的重构误差可以学习出序列数据的隐特征。其他算法还包括弱监督下的 激活图学习[70],图卷积网络学习隐特征[71]。 


正则化约束类算法通常是在有监督神经网络的输出层或者隐含层的目标函数中加入体现样本分布特性的正则化项,用以在训练中引入无标记样本。文献[64]中把图的拉普拉斯正则化项分别加入到网络输出层的目标函数和中间隐含层的目标函数中,用来做半监督的分类 和特征学习。文献[72]中定义一组标准的随机变换操作,然后定义网络目标函数包括两个部 分:监督学习损失函数为标记样本多次随机变换后的预测差异,正则化项为无标记样本多次 通过网络预测的结果差异,最后通过反向梯度传播来最小化目标函数进行半监督深度学习。 文献[73, 74]中分别使用最大似然分类器和多层感知器作为监督学习的损失函数,并借用自 然语言处理中用于词语特征学习的 Skipgram 模型作为正则化项。文献[75]中采用分类指示向量互斥原则对网络进行正则化,即所有样本通过网络后输出的类别向量中只有一个为非 0,这就迫使网络在训练时对无标记样本的分布进行学习并给出确定的类别。其他的正则化半监督学习还包括信息熵正则项(Entropy Regularization)[76, 77],自编码器正则化[78],邻域距离正 则化[79]。需要说明的是,早期训练深度神经网络时常用的 Pre-training, Fine-tuning 训练方法, 如文献[80, 81],也可看作是一种特殊的正则化[82]。 


生成式对抗网络 GAN[83]中,通过让生成器(Generator)和判决器(Discriminator)相互竞争 达到平衡状态来无监督地训练网络。由于 GAN 在生成模拟真实样本上的成功表现(如文献 [84]中),一个很自然的想法就是在标记样本较少的情况下,能否利用 GAN 所学到的样本内 容分布和强大的竞争学习能力来提高网络分类性能。文献[85]中迫使判决器对于真实样本输 出单热向量(One-hot Vector),而对于生成样本输出均匀向量(即类别不确定)。文献[86]中提 出了一种输出分布匹配(Output Distribution Matching, ODM)方法用作半监督学习中的正则化 项,并用 GAN 对网络进行训练使得生成的虚拟样本类别分布与真实样本类别分布相匹配。 文献[87, 88]中通过对判决器进行修改使其输出 K 1 类,其中前 K 类为真实数据的分类, 后一类为生成样本分类。这样在 GAN 的训练过程中,分类器需要在判断真假样本的基础上, 进一步给出真样本的类别,这就可以借助 GAN 在训练中学到的样本内容分布加上少量标记 样本来完成半监督学习。另外,这里强制对样本进行分类与文献[85]中强制输出单热向量目 的上是一致的,都是要求判决器尽可能地确定每个样本的类别信息。文献[89]中证明了在半 监督学习情况下,一个差的生成器能够更有利于判决器进行半监督地学习,并以此为基础对 GAN 做了修改,通过最小化生成器真假样本分布的 KL 散度和最大化判决器的条件熵来交 替训练网络,效果改进明显。



参考文献 

[1] ZHU X. Semi-supervised learning literature survey[J]. Computer Science, University of Wisconsin-Madison, 2006, 2(3): 4. 

[2] CHAPELLE O, SCHOLKOPF B, et al. Semi-supervised learning[J], IEEE Transactions on Neural Networks, 2009, 20(3): 542-542. 

[3] CASTELLI VITTORIO, COVER THOMAS M, The relative value of labeled and unlabeled samples in pattern recognition with an unknown mixing parameter[J], IEEE Transactions on Information Theory, 1996,42(6): 2102-2117. 

[4] SHAHSHAHANI BEHZAD M, LANDGREBE DAVID A, The effect of unlabeled samples in reducing the small sample size problem and mitigating the Hughes phenomenon[J], IEEE Transactions on Geoscience And Remote Sensing, 1994,32(5): 1087-1095. 

[5] RATSABY JOEL, VENKATESH SANTOSH S. Learning from a mixture of labeled and unlabeled examples with parametric side information[C]//Proceedings of The Eighth Annual Conference on Computational Learning Theory, ACM, 1995: 412-417. 

[6] NIGAM KAMAL, MCCALLUM ANDREW, et al. Learning to classify text from labeled and unlabeled documents[C]//The Fifteenth National Conference on Artificial Intelligence, 1998,792. 

[7] MCCALLUMZY ANDREW KACHITES, NIGAMY KAMAL, Employing EM and pool-based active learning for text classification[C]//Proc. International Conference on Machine Learning (ICML), Citeseer, 1998, 359-367. 

[8] DE SA VIRGINIA R, Learning classification with unlabeled data[C]//Advances in Neural Information Processing Systems, 1994, 112-119. 

[9] BENNETT KRISTIN P, DEMIRIZ AYHAN, Semi-supervised support vector machines[C]//Advances in Neural Information Processing Systems, 1999: 368-374. 

[10] JOACHIMS THORSTEN. SVM-Light Support Vector Machine [OL].(1999-04). http://svmlight. joachims. org/ 

[11] VAPNIK VLADIMIR NAUMOVICH, VAPNIK VLAMIMIR, Statistical Learning Theory, Wiley New York, 1998.


-END-

专 · 知

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询

请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成!550+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

登录查看更多
36

相关内容

半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习目前正越来越受到人们的重视。

虽然像CNNs这样的深度学习模型在医学图像分析方面取得了很大的成功,但是小型的医学数据集仍然是这一领域的主要瓶颈。为了解决这个问题,研究人员开始寻找现有医疗数据集之外的外部信息。传统的方法通常利用来自自然图像的信息。最近的研究利用了来自医生的领域知识,通过让网络模仿他们如何被训练,模仿他们的诊断模式,或者专注于他们特别关注的特征或领域。本文综述了将医学领域知识引入疾病诊断、病变、器官及异常检测、病变及器官分割等深度学习模型的研究进展。针对不同类型的任务,我们系统地对所使用的不同类型的医学领域知识进行了分类,并给出了相应的整合方法。最后,我们总结了挑战、未解决的问题和未来研究的方向。

成为VIP会员查看完整内容
0
89

摘要: 大数据时代,数据呈现维度高、数据量大和增长快等特点。如何有效利用其中蕴含的有价值信息,以实现数据的智能化处理,已成为当前理论和应用的研究热点。针对现实普遍存在的多义性对象,数据多标签被提出并被广泛应用于数据智能化组织。近年来,深度学习在数据特征提取方面呈现出高速、高精度等优异性,使基于深度学习的多标签生成得到广泛关注。文中分五大类别总结了最新研究成果,并进一步从数据、关系类型、应用场景、适应性及实验性能方面对其进行对比和分析,最后探讨了多标签生成面临的挑战和未来的研究方向。

成为VIP会员查看完整内容
0
107

摘要: 目标检测算法应用广泛,一直是计算机视觉领域备受关注的研究热点。近年来,随着深度学习的发展,3D图像的目标检测研究取得了巨大的突破。与2D目标检测相比,3D目标检测结合了深度信息,能够提供目标的位置、方向和大小等空间场景信息,在自动驾驶和机器人领域发展迅速。文中首先对基于深度学习的2D目标检测算法进行概述;其次根据图像、激光雷达、多传感器等不同数据采集方式,分析目前具有代表性和开创性的3D目标检测算法;结合自动驾驶的应用场景,对比分析不同 3D 目标检测算法的性能、优势和局限性;最后总结了3D目标检测的应用意义以及待解决的问题,并对 3D 目标检测的发展方向和新的挑战进行了讨论和展望。

成为VIP会员查看完整内容
0
107

​【导读】图像分类是计算机视觉中的基本任务之一,深度学习的出现是的图像分类技术趋于完善。最近,自监督学习与预训练技术的发展使得图像分类技术出现新的变化,这篇论文概述了最新在实际情况中少标签小样本等情况下,关于自监督学习、半监督、无监督方法的综述,值得看!

地址:

https://www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132

摘要

虽然深度学习策略在计算机视觉任务中取得了突出的成绩,但仍存在一个问题。目前的策略严重依赖于大量的标记数据。在许多实际问题中,创建这么多标记的训练数据是不可行的。因此,研究人员试图将未标记的数据纳入到培训过程中,以获得与较少标记相同的结果。由于有许多同时进行的研究,很难掌握最近的发展情况。在这项调查中,我们提供了一个概述,常用的技术和方法,在图像分类与较少的标签。我们比较了21种方法。在我们的分析中,我们确定了三个主要趋势。1. 基于它们的准确性,现有技术的方法可扩展到实际应用中。2. 为了达到与所有标签的使用相同的结果所需要的监督程度正在降低。3.所有方法都共享公共技术,只有少数方法结合这些技术以获得更好的性能。基于这三个趋势,我们发现了未来的研究机会。

1. 概述

深度学习策略在计算机视觉任务中取得了显著的成功。它们在图像分类、目标检测或语义分割等各种任务中表现最佳。

图1: 这张图说明并简化了在深度学习训练中使用未标记数据的好处。红色和深蓝色的圆圈表示不同类的标记数据点。浅灰色的圆圈表示未标记的数据点。如果我们只有少量的标记数据可用,我们只能对潜在的真实分布(黑线)做出假设(虚线)。只有同时考虑未标记的数据点并明确决策边界,才能确定这种真实分布。

深度神经网络的质量受到标记/监督图像数量的强烈影响。ImageNet[26]是一个巨大的标记数据集,它允许训练具有令人印象深刻的性能的网络。最近的研究表明,即使比ImageNet更大的数据集也可以改善这些结果。但是,在许多实际的应用程序中,不可能创建包含数百万张图像的标记数据集。处理这个问题的一个常见策略是迁移学习。这种策略甚至可以在小型和专门的数据集(如医学成像[40])上改进结果。虽然这对于某些应用程序来说可能是一个实际的解决方案,但基本问题仍然存在: 与人类不同,监督学习需要大量的标记数据。

对于给定的问题,我们通常可以访问大量未标记的数据集。Xie等人是最早研究无监督深度学习策略来利用这些数据[45]的人之一。从那时起,未标记数据的使用被以多种方式研究,并创造了研究领域,如半监督、自我监督、弱监督或度量学习[23]。统一这些方法的想法是,在训练过程中使用未标记的数据是有益的(参见图1中的说明)。它要么使很少有标签的训练更加健壮,要么在某些不常见的情况下甚至超过了监督情况下的性能[21]。

由于这一优势,许多研究人员和公司在半监督、自我监督和非监督学习领域工作。其主要目标是缩小半监督学习和监督学习之间的差距,甚至超越这些结果。考虑到现有的方法如[49,46],我们认为研究处于实现这一目标的转折点。因此,在这个领域有很多正在进行的研究。这项综述提供了一个概述,以跟踪最新的在半监督,自监督和非监督学习的方法。

大多数综述的研究主题在目标、应用上下文和实现细节方面存在差异,但它们共享各种相同的思想。这项调查对这一广泛的研究课题进行了概述。这次调查的重点是描述这两种方法的异同。此外,我们还将研究不同技术的组合。

2. 图像分类技术

在这一节中,我们总结了关于半监督、自监督和非监督学习的一般概念。我们通过自己对某些术语的定义和解释来扩展这一总结。重点在于区分可能的学习策略和最常见的实现策略的方法。在整个综述中,我们使用术语学习策略,技术和方法在一个特定的意义。学习策略是算法的一般类型/方法。我们把论文方法中提出的每个算法都称为独立算法。方法可以分为学习策略和技术。技术是组成方法/算法的部分或思想。

2.1 分类方法

监督、半监督和自我监督等术语在文献中经常使用。很少有人给出明确的定义来区分这两个术语。在大多数情况下,一个粗略的普遍共识的意义是充分的,但我们注意到,在边界情况下的定义是多种多样的。为了比较不同的方法,我们需要一个精确的定义来区分它们。我们将总结关于学习策略的共识,并定义我们如何看待某些边缘案例。一般来说,我们根据使用的标记数据的数量和训练过程监督的哪个阶段来区分方法。综上所述,我们把半监督策略、自我学习策略和无监督学习策略称为reduced减约监督学习策略。图2展示了四种深度学习策略。

图2: 插图的四个深学习策略——红色和深蓝色的圆圈表示标记数据点不同的类。浅灰色的圆圈表示未标记的数据点。黑线定义了类之间的基本决策边界。带条纹的圆圈表示在训练过程的不同阶段忽略和使用标签信息的数据点。

监督学习 Supervised Learning

监督学习是深度神经网络图像分类中最常用的方法。我们有一组图像X和对应的标签或类z。设C为类别数,f(X)为X∈X的某个神经网络的输出,目标是使输出与标签之间的损失函数最小化。测量f(x)和相应的z之间的差的一个常用的损失函数是交叉熵。

迁移学习

监督学习的一个限制因素是标签的可用性。创建这些标签可能很昂贵,因此限制了它们的数量。克服这一局限的一个方法是使用迁移学习。

迁移学习描述了训练神经网络的两个阶段的过程。第一个阶段是在大型通用数据集(如ImageNet[26])上进行有无监督的训练。第二步是使用经过训练的权重并对目标数据集进行微调。大量的文献表明,即使在小的领域特定数据集[40]上,迁移学习也能改善和稳定训练。

半监督学习

半监督学习是无监督学习和监督学习的混合.

Self-supervised 自监督学习

自监督使用一个借托pretext任务来学习未标记数据的表示。借托pretext任务是无监督的,但学习表征往往不能直接用于图像分类,必须进行微调。因此,自监督学习可以被解释为一种无监督的、半监督的或其自身的一种策略。我们将自我监督学习视为一种特殊的学习策略。在下面,我们将解释我们是如何得出这个结论的。如果在微调期间需要使用任何标签,则不能将该策略称为无监督的。这与半监督方法也有明显的区别。标签不能与未标记的数据同时使用,因为借托pretext任务是无监督的,只有微调才使用标签。对我们来说,将标记数据的使用分离成两个不同的子任务本身就是一种策略的特征。

2.2 分类技术集合

在减少监督的情况下,可以使用不同的技术来训练模型。在本节中,我们将介绍一些在文献中多种方法中使用的技术。

一致性正则化 Consistency regularization

一个主要的研究方向是一致性正则化。在半监督学习过程中,这些正则化被用作数据非监督部分的监督损失的附加损失。这种约束导致了改进的结果,因为在定义决策边界时可以考虑未标记的数据[42,28,49]。一些自监督或无监督的方法甚至更进一步,在训练中只使用这种一致性正则化[21,2]。

虚拟对抗性训练(VAT)

VAT[34]试图通过最小化图像与转换后的图像之间的距离,使预测不受小转换的影响。

互信息(MI)

MI定义为联合分布和边缘分布[8]之间的Kullback Leiber (KL)散度。

熵最小化(EntMin)

Grandvalet和Bengio提出通过最小化熵[15]来提高半监督学习的输出预测。

Overclustering

过度聚类在减少监督的情况下是有益的,因为神经网络可以自行决定如何分割数据。这种分离在有噪声的数据中或在中间类被随机分为相邻类的情况下是有用的。

Pseudo-Labels

一种估计未知数据标签的简单方法是伪标签

3. 图像分类模型

3.1 半监督学习

四种选择的半监督方法的图解——使用的方法在每张图像下面给出。输入在左边的蓝色方框中给出。在右侧提供了该方法的说明。一般来说,这个过程是自上而下组织的。首先,输入图像经过无或两个不同的随机变换预处理。自动增广[9]是一种特殊的增广技术。下面的神经网络使用这些预处理图像(x, y)作为输入。损失的计算(虚线)对于每种方法都是不同的,但是共享公共部分。所有的方法都使用了标记和预测分布之间的交叉熵(CE)。所有的方法还使用了不同预测输出分布(Pf(x), Pf(y))之间的一致性正则化。

3.2 自监督学习

四种选择的自我监督方法的图解——使用的方法在每张图像下面给出。输入在左边的红色方框中给出。在右侧提供了该方法的说明。微调部分不包括在内。一般来说,这个过程是自上而下组织的。首先,对输入图像进行一两次随机变换预处理或分割。下面的神经网络使用这些预处理图像(x, y)作为输入。损失的计算(虚线)对于每种方法都是不同的。AMDIM和CPC使用网络的内部元素来计算损失。DeepCluster和IIC使用预测的输出分布(Pf(x)、Pf(y))来计算损耗

3.3 21种图像分类方法比较

21种图像分类方法及其使用技术的概述——在左侧,第3节中回顾的方法按学习策略排序。第一行列出了在2.2小节中讨论过的可能的技术。根据是否可以使用带标签的数据,将这些技术分为无监督技术和有监督技术。技术的缩写也在第2.2小节中给出。交叉熵(Cross-entropy, CE)将CE的使用描述为训练损失的一部分。微调(FT)描述了交叉熵在初始训练后(例如在一个借口任务中)对新标签的使用。(X)指该技术不是直接使用,而是间接使用。个别的解释由所指示的数字给出。1 - MixMatch通过锐化预测[3],隐式地实现了熵最小化。2 - UDA预测用于过滤无监督数据的伪标签。3 -尽量减少相互信息的目的作为借口任务,例如视图之间的[2]或层之间的[17]。4 -信息的丢失使相互信息间接[43]最大化。5 - Deep Cluster使用K-Means计算伪标签,以优化分配为借口任务。6 - DAC使用元素之间的余弦距离来估计相似和不相似的项。可以说DAC为相似性问题创建了伪标签。

4. 实验比较结果

报告准确度的概述——第一列说明使用的方法。对于监督基线,我们使用了最好的报告结果,作为其他方法的基线。原始论文在准确度后的括号内。第二列给出了体系结构及其参考。第三列是预印本的出版年份或发行年份。最后四列报告了各自数据集的最高准确度分数%。

5 结论

在本文中,我们概述了半监督、自监督和非监督技术。我们用21种不同的方法分析了它们的异同和组合。这项分析确定了几个趋势和可能的研究领域。

我们分析了不同学习策略(半监督学习策略、自监督学习策略和无监督学习策略)的定义,以及这些学习策略中的常用技术。我们展示了这些方法一般是如何工作的,它们使用哪些技术,以及它们可以被归类为哪种策略。尽管由于不同的体系结构和实现而难以比较这些方法的性能,但我们确定了三个主要趋势。

ILSVRC-2012的前5名正确率超过90%,只有10%的标签表明半监督方法适用于现实问题。然而,像类别不平衡这样的问题并没有被考虑。未来的研究必须解决这些问题。

监督和半监督或自监督方法之间的性能差距正在缩小。有一个数据集甚至超过了30%。获得可与全监督学习相比的结果的标签数量正在减少。未来的研究可以进一步减少所需标签的数量。我们注意到,随着时间的推移,非监督方法的使用越来越少。这两个结论使我们认为,无监督方法在未来的现实世界中对图像分类将失去意义。

我们的结论是,半监督和自监督学习策略主要使用一套不同的技术。通常,这两种策略都使用不同技术的组合,但是这些技术中很少有重叠。S4L是目前提出的唯一一种消除这种分离的方法。我们确定了不同技术的组合有利于整体性能的趋势。结合技术之间的微小重叠,我们确定了未来可能的研究机会。

参考文献:

[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.

[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.

[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.

[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.

[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.

成为VIP会员查看完整内容
0
138

摘要 : 零样本图像分类指训练集和测试集在数据的类别上没有交集的情况下进行图像分类 . 该技术 是解决类别标签缺失问题的一种有效手段 , 因此受到了日益广泛的关注 . 自提出此问题至今 , 零样本 图像分类的研究已经大致有十年时间 . 本文系统地对过去十年中零样本图像分类技术的研究进展进行 了综述 , 主要包括以下 4 个方面 . 首先介绍零样本图像分类技术的研究意义及其应用价值 , 然后重点 总结和归纳零样本图像分类的发展过程和研究现状 , 接下来介绍常用的数据集和评价准则 , 以及与零 样本学习相关的技术的区别和联系 , 最后分析有待深入研究的热点与难点问题 , 并对未来的发展趋势 进行了展望 .

关键词: 零样本图像分类 , 属性 , 词向量 , 跨模态映射 , 领域适应学习

成为VIP会员查看完整内容
0
89
小贴士
相关资讯
关于GANs在医学图像领域应用的总结
人工智能前沿讲习班
28+阅读 · 2019年6月4日
【综述】自动机器学习AutoML最新65页综述,带你了解最新进展
中国人工智能学会
46+阅读 · 2019年5月3日
人脸识别研究取得进展
中科院之声
4+阅读 · 2019年3月26日
【领域报告】主动学习年度进展|VALSE2018
深度学习大讲堂
14+阅读 · 2018年6月12日
贝叶斯机器学习前沿进展
机器学习研究会
17+阅读 · 2018年1月21日
深度 | 迁移学习全面概述:从基本概念到相关研究
七月在线实验室
15+阅读 · 2017年8月15日
相关VIP内容
专知会员服务
111+阅读 · 2020年6月12日
专知会员服务
107+阅读 · 2020年4月25日
专知会员服务
107+阅读 · 2020年4月24日
专知会员服务
111+阅读 · 2020年4月21日
零样本图像分类综述 : 十年进展
专知会员服务
89+阅读 · 2019年11月16日
相关论文
Shangwen Lv,Yuechen Wang,Daya Guo,Duyu Tang,Nan Duan,Fuqing Zhu,Ming Gong,Linjun Shou,Ryan Ma,Daxin Jiang,Guihong Cao,Ming Zhou,Songlin Hu
10+阅读 · 2020年4月12日
Continual Unsupervised Representation Learning
Dushyant Rao,Francesco Visin,Andrei A. Rusu,Yee Whye Teh,Razvan Pascanu,Raia Hadsell
5+阅读 · 2019年10月31日
Zhenzhong Lan,Mingda Chen,Sebastian Goodman,Kevin Gimpel,Piyush Sharma,Radu Soricut
3+阅读 · 2019年9月26日
A Survey of the Usages of Deep Learning in Natural Language Processing
Daniel W. Otter,Julian R. Medina,Jugal K. Kalita
80+阅读 · 2019年9月11日
Megha Khosla,Avishek Anand,Vinay Setty
5+阅读 · 2019年3月19日
Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences
Jasper van der Waa,Jurriaan van Diggelen,Karel van den Bosch,Mark Neerincx
4+阅读 · 2018年7月23日
Yong Wang,Xiao-Ming Wu,Qimai Li,Jiatao Gu,Wangmeng Xiang,Lei Zhang,Victor O. K. Li
9+阅读 · 2018年7月8日
Ilya Tolstikhin,Olivier Bousquet,Sylvain Gelly,Bernhard Schoelkopf
6+阅读 · 2018年3月12日
Armand Joulin,Edouard Grave,Piotr Bojanowski,Maximilian Nickel,Tomas Mikolov
3+阅读 · 2017年10月30日
Top
微信扫码咨询专知VIP会员