即使在大数据时代,获取大批量高质量的标注数据在实际中往往成本高昂。半监督学习技术作为一类可以同时有效利用有标签数据和无标签数据的学习范式,有希望大大降低监督任务对于标签数据的需求。本文从 2013 年所提出的 Pseudo-Label 开始,至 2019 年 Google 所提出的 UDA 技术为止,详细介绍了半监督学习近年来的发展历程,重点关注各技术在核心思想、方法论上的演进。文章最后对半监督学习中涉及到的部分关键细节,如领域外数据等问题进行了详细讨论。
李渔,熵简科技联合创始人,博士毕业于清华大学电子工程系,以第一作者身份发表学术论文 10 余篇,申请专利 6 项,致力于将先进的自然语言处理及深度学习技术真正落地于金融资管领域,让科技赋能产业。目前负责熵简科技 NLP 技术中台的建设,包括层次化的分层架构、大数据泛采体系、持续部署的后台支持以及前沿算法的领域内落地等,为熵简科技的各大业务线提供底层技术支持和可落地的解决方案。
个人知乎专栏:
https://zhuanlan.zhihu.com/c_1215573707772649472
半监督学习介于监督学习与无监督学习之间。一般而言,半监督学习的任务与监督学习一致,任务中包含有明确的目标,如分类。而所采用的数据既包括有标签的数据,也包括无标签的数据。
简单理解,可以认为半监督学习就是同时运用了标签数据和无标签数据来进行训练的监督学习。当然,在另外一些研究中,带有约束限制的无监督学习也被视为半监督学习,例如受限的聚类算法。
从半监督学习与监督学习的关系出发,我们可以自然得出半监督学习的几个核心点:
如何从无标签数据中获取学习信号来指导监督学习?
如何平衡运用有标签数据和无标签数据各自的学习信号?
如何选择无标签数据?
这几个核心点正是半监督学习方法需要解决的主要矛盾,同时也是半监督学习思想的精髓所在。本文在后面介绍各个算法时,将会针对这几个核心点做重点介绍。
1.2 半监督学习有什么用
我们知道,即使在大数据时代,想要获取到大批量高质量的标注数据在实际中往往是一件很困难的事,需要花费大量的人力和时间。
尤其在垂直领域,例如金融、法律、医学等领域,数据的标注还需要业务人员甚至行业专家的参与才能实现相对准确的数据标注,满足业务需求,这使得垂直领域的数据标注成本尤其高昂。
而半监督学习正是为了解决这一类问题而出现的。它的核心目标是,希望通过专家标注的少量有标签数据,结合大量的无标签数据,训练出具备强泛化能力的模型,从而解决实际中的问题。这也正是我们熵简 NLP 团队探索半监督学习技术的主要动机。
更进一步,半监督学习也是一类更接近于人类学习方法的机器学习范式。试想这样一个场景,我们小时候学习识别小猫、小狗、汽车等等物品时,往往只需要父母进行一两次的指导,我们就能很准确地辨认出什么是猫狗。
这背后有一个重要原因是,我们从出生开始就见过很多次小猫、小狗等等动物,虽然还没有人明确告诉过我们这些动物是什么,但我们的大脑已经对于这些事物建立了足够的认识。
整个过程抽象出来与半监督学习的思想很相似,父母的指导可视为有标签数据,出生之后的目之所见即为无标签数据,二者结合帮助我们实现快速地学习。因此,半监督学习技术既是少样本学习的重要路径之一,也有助于帮助我们发展更接近于人类学习范式的机器学习技术。
本文接下来部分重点介绍在深度学习时代,半监督学习技术的发展历程和代表工作。更为全面和基础的介绍,大家可以参考这两本书 [1,2],这两本书都出版于2010年之前,基本汇集了半监督学习在前深度学习时代的主要成果。
本小节从 2013 年所提出的 Pseudo-Label 开始,至 2019 年 Google 所提出的 UDA 技术为止,详细介绍半监督学习近年来的发展历程,重点关注各技术在核心思想、方法论上的演进。
2.1 Pseudo-Label:The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks,2013
Pseudo-Label 模型作为一个简单、有效的半监督学习方法早在 2013 年就被提出,其核心思想包括两步:
第一步:运用训练出的模型给予无标签的数据一个伪标签。方法很直接:用训练中的模型对无标签数据进行预测,以概率最高的类别作为无标签数据的伪标签;
第二步:运用 entropy regularization 思想,将无监督数据转为目标函数的正则项。实际中,就是将拥有伪标签的无标签数据视为有标签的数据,然后用交叉熵来评估误差大小。
模型整体的目标函数如下:
其中,左边第一项为交叉熵,用来评估有标签数据的误差。右边第二项即为 entropy regularization 项,用来从无标签的数据中获取训练信号。
为了平衡有标签数据和无标签数据的信号强度,如上所示,算法在目标函数中引入了时变参数 α(t),其数学形式如下:
因此,随着训练时间的增加,α(t) 将会从零开始线性增长至某个饱和值,对应无标签数据的信号也将逐渐释放出来。背后的核心想法也很直观,早期模型预测效果不佳,因此 entropy regularization 产生信号的误差也较大,因而 α(t) 应该从零开始,由小逐渐增大。
在实验中,研究人员用 MNIST 数据集进行了实验验证,并尝试了在有标签数据仅为 100、600、1000 和 3000 时的情况:
其中,DROPNN、PL 和 PL+DAE 分别是实验中的 baseline 模型、baseline 模型 + Pseudo-Label 方法以及 baseline 模型 + Pseudo-Label 方法 + DAE 预训练方案。
对比上面左右两张图可以看出来, Pseudo-Label 模型相对于单独的有监督模型,可以有效改善各类别数据在空间中的聚集密度。
最后,简单说一下这篇文章存在的明显不足:
对于有标签数据,数据只会流经降噪自编码器的 Encoder 模块,并通过顶层的输出与原始输入构建有监督的目标函数。
对于无标签数据,数据经过 Encoder 模块实现了加噪编码,随后经过 Decoder 模块进行逐层解码,并获取到一系列隐层表示,分别是 、 等。另一方面,最右侧无噪的前向网络也会对原始无标签数据进行逐层编码 、 等,这正是 Decoder 模块对应隐层的目标值。通过最小化二者的均方误差,即可从无标签数据中提取到学习信号。
上图给出了该模型在 MNIST 数据集的实验结果。从图中可知,无论是在全数据集下,还是在 100 条的极少数据集下,本研究所提出的模型与一众其他模型相比,表现都是最优的。
其中也包括 2.1 中提到的 Pseudo-Label 模型。尤其值得一提的是,Ladder 仅仅采用了不到 1% 的有标签数据就实现了 1% 的错误率,与完整数据集相比,仅低了 0.5%。
2.3 Π Model & Temporal ensembling Model:Temporal ensembling for semi-supervised learning,2017
如上图所示,Π Model 包含两个核心点:
第一:对每一个参与训练的样本,在训练阶段,进行两次前向运算。此处的前向运算,包含一次随机增强变换和一次模型的前向运算。由于增强变换是随机的,同时模型采用了 Dropout,这两个因素都会造成两次前向运算结果的不同,如图中所示的两个 zi。
第二:损失函数由两部分构成,如下图所示。第一项由交叉熵构成,仅用来评估有标签数据的误差。第二项由两次前向运算结果的均方误差(MSE)构成,用来评估全部的数据(既包括有标签数据,也包括无标签数据)。其中,第二项含有一个时变系数,用来逐步释放此项的误差信号。此处的第二项即是用来实现一致性正则。
对于 Temporal ensembling Model,其整体框架与 Π Model 类似,在获取无标签数据的信息上采用了相同的思想,唯一的不同是:
在目标函数的无监督一项中, Π Model 是两次前向计算结果的均方差。而在 temporal ensembling 模型中,采用的是当前模型预测结果与历史预测结果的平均值做均方差计算。
相对于 Π Model,这种做法有两方面的好处:
用空间来换取时间,在相同 epoch 的情况下,总的前向计算次数减少了一半,因而训练速度更快;
通过历史预测做平均,有利于平滑单次预测中的噪声。
接下来看一下实验结果:
研究人员分别在 CIFAR-10 和 SVHN 数据集上进行了实验。从图中可以看出,对于 CIFAR-10 数据集上,在仅有 10% 的样本下(左边一列),相对于纯监督或者 GAN 的模型,文章所提出的两个算法模型提升了 23~6 个百分点不等。
即使在完整数据集下,此论文所提出的方法也比纯监督的方法更优,额外提升 0.5 个百分点。这说明本文所采用的一致性正则项完全可以充当通用的正则项,用来约束模型对于输入的局部噪声不敏感。
在 Temporal ensembling Model 被提出的同年,日本的研究人员从对抗训练的角度出发,提出了 VAT 算法。这一算法的出发点与 Temporal ensembling Model 基本一致,即模型所描述的系统应该是光滑的,因此当输入数据发生微小变化时,模型的输出也应是微小变化,进而其预测的标签也近似不变。
VAT 与 Temporal ensembling Model 的不同之处在于,后者采用数据增强、dropout 来对无标签数据施加噪声,而前者施加的则是模型变化最陡峭方向上的噪声,即所谓的对抗噪声。在作者看来,如果模型在对抗噪声下,依然能够保持光滑,那么整个网络就能够表现出很好的一致性。
在此思路下,VAT 的目标函数与 Temporal ensembling Model 类似,包含有标签数据部分的交叉熵,以及无标签数据部分的一致性正则项。此处一致性正则项的数学形式如下:
为了和其他半监督学习方法进行对比,研究人员分别在 SVHN 和 CIFAR-10 数据集上进行实验验证。从上表中可以看出,单独的 VAT (目标函数仅包含前两项)与 Temporal ensembling Model 在两个数据集上互有胜负,这取决于具体的数据集特征。
而对于 VAT + EntMin 模型,在两个数据集下,相对于其他模型都是最优表现,且平均比第二名高出接近一个百分点。
Mean Teacher 模型主要想解决 Temporal ensembling Model 的一个突出问题,即无标签数据的信息只能在下一次 epoch 时才能更新到模型中。由此带来两个问题:
模型既充当学生,又充当老师。作为老师,用来产生学生学习时的目标;作为学生,则利用教师模型产生的目标来进行学习。而教师模型的参数是由历史上(前几个step)几个学生模型的参数经过加权平均得到。
因此,Mean Teacher 模型的目标函数的第二项为:
其中,模型参数 θ 的更新方式为:
注意,当 α=0 时,Mean Teacher 模型与 Π 模型在形式上等价;
由此可知,Mean Teacher 模型与 temporal ensembling 模型相比,主要区别及优势是:
在 temporal ensembling 中,无标签数据的目标标签来自模型前几个 epoch 预测结果的加权平均。而在 Mean Teacher 中,无标签数据的目标标签来自 teacher 模型的预测结果。
由于是通过模型参数的平均来实现标签预测,因此在每个 step 都可以把无标签中的信息更新到模型中,而不必像 temporal ensembling 模型需要等到一个 epoch 结束再更新。这一特点使得这一算法可以用在大数据集以及在线模型上。
接下来看一下实验结果:
随着标签数据的逐步减少,Mean Teacher 技术相对于纯监督模型带来的提升越来越显著,最佳情况下可以实现 22 个百分点的提升;
对比完整标签集和 250 个标签集的情况,Mean Teacher 技术仅仅利用了不到 1% 的标签数据,就实现了 4.3 的错误率,仅比全标签集低 2 个百分点,这一点在数据标注昂贵的场景下很有价值。
与其他技术方案相比,在某些情况下,Mean Teacher 技术没有 VAT 的方案表现优秀。对于这一点,论文作者也提到,由于两个方案切入维度不同,因而二者完全可以互补,从而带来更大的模型提升。
2.6 MixMatch: A Holistic Approach to Semi-Supervised Learning, 2019
时间到了 2019 年,Google 的研究团队先后提出了两个半监督学习技术,分别是 MixMatch 和下面一小节要介绍的 UDA 技术。
MixMatch 可以认为是近几年半监督学习技术的集大成者,融入了前面提到 Consistency Regulation、伪标签思想、entropy regularization 以及 MixUp 技术,最终实现了显著优于之前半监督学习技术的效果。
伪标签生成:相对于早期的 Pseudo-Label 模型,MixMatch 做了两点改进。第一,运用数据增强技术对无标签数据进行 K 次的变换,模型分别对 K 次变换进行预测,然后取这 K 次结果的平均作为无标签的期望结果。第二,在此基础上,运用 entropy regularization 思想,对于 K 平均之后的结果,再进行锐化操作,使得各类别上的概率值差别更为明显。整体流程如下图所示:
数据的 MixUp 变换:MixUp 会按照一定比例将有标签的数据和无标签的数据进行混合以构成新的样本对。MixUp 变换本身可以视为一种正则化技术。直观来看,它要求,当模型的输入为另外两个输入的线性组合时,其输出也是这两个数据单独输入模型后,所得输出的线性组合。学过信号与系统的同学应该知道,这其实就是要求模型近似为一个线性系统。
MixMatch 技术的目标函数与上述的 Π Model 接近:
其中,第一项为交叉熵,用于计算有标签数据的误差;第二项为 MSE,用来计算无标签数据与伪标签之间的均方误差,对应前面提到的 Consistency Regulation。
上图是 CIFAR-10 数据集上的实验结果。从图中可以看出,MixMatch 技术显著优于先前的半监督技术,尤其有标签数据量少的情况下,MixMatch 的优势尤其明显。例如在仅有 250 条有标签数据下,MixMatch 的表现相对于第二名高了近 25 个百分点。
此外,研究人员运用控制变量法对于 MixMatch 中用到的各类技术进行单独研究,结果如下图所示:
2.7 Unsupervised Data Augmentation for Consistency Training, 2019
效果足够惊人。在 CV 上,超越了包括 MixMatch 在内的一众半监督学习框架,成为新的 SOTA 技术。在文本分类问题上,仅用 20 条有标签数据,就超过了有监督学习下采用 2.5 万完整标签集的情况。
Google 出品。
从上图可知,UDA 与 15 年就提出的 Π Model 在算法框架基本一致,唯一的区别在于,在无监督loss中,UDA 采用了 KL 散度来度量差异,而 Π Model 采用了 MSE 来度量。而且目前看起来,用 MSE 会更优。关于这一点,本文会在第三部分进行了详细讨论。
采用了最先进的数据增强技术,在 CV 上运用了 19 年刚被提出来的 RandAugment,在 NLP 上则综合运用了 Back Translation 和非核心词替换。这些技术可以保证无标签数据在语义不变的情况下,极大地丰富数据的表现形式。这使得 Consistency Regulation 可以从无标签数据中更有效地捕捉到数据的内在表示,这一点是早前如 Π Model 所无法实现的。
采用了最新的迁移学习模型。在文本分类任务上,研究人员采用 BERT-large 作为基础模型进行微调,由于 BERT 已经在海量数据上进行了预训练,本身在下游任务上就只需要少量数据,再与 UDA 合力,因而可以在 20 条有标签数据上实现 SOTA 的表现。
采用了一系列精心设计的训练技巧。这包括平衡控制有监督信号和无监督信号的 TSA 技术,基于 Entropy Regularization 的锐化技术,无标签数据的二次筛选等等。这些技巧或许是打败同年出生的 MixMatch 的主要原因。
由此可知,UDA 与前面提到几个半监督模型相比,本身在半监督学习框架上并没有太大的创新,其贡献更多的是将近年来深度学习领域其他的新技术和新思想结合进半监督学习中。
最后,我们看一下 UDA 的实验效果:
文本的第二部分对过去几年中典型的半监督学习技术进行了详细介绍,重点放在了算法框架、核心思想的梳理。实际上,在算法的实践过程中,有一些关键细节对于算法最终的效果有着很大的影响,我们统一在这一部分对其中的部分关键细节进行详细讨论。
3.1 类别外数据的处理
但是,更多的研究认为,如果无标签数据中混入了类别外的数据,会导致模型的表现下降,因此在实际中应该注意对无标签数据进行筛选 [8-10]。
前面提到的 UDA 技术对于类别外无标签数据的筛选提供了一个简单有效的处理方式:
运用当前训练的模型对于无标签数据进行类别预测,只保留那些预测概率值超过一定阈值的无标签数据。对于这一部分数据,可以认为其分布特征与当前类别具有较高的相关度,因此可以参与训练。
3.2 一致性正则的数学选择
从前面提到的几类典型半监督技术来看,一致性正则的数学形式大致分为两种:
一种是 MSE,对应的半监督框架有:Π Model,Temporal ensembling Model,Mean Teacher,MixMatch
一种是 KL 散度,对应的半监督框架有:VAT,UDA
文献 [5] 对于这两种形式进行了对比研究,实验结果如下:
在实际中,数据的标签很难保证绝对的正确,因此更一般的情况是,标签数据中总会混有一定比例的错误标签数据,那么这部分错误标签数据对于模型的影响在半监督学习框架下到底有多大,也是一个很有意思的问题。
上述的结果好到令人质疑,文章作者对于这一现象的解释是:一致性正则可以充分利用所有数据的信息(包括有错误标签的数据),使得网络的函数在输入数据的附近空间平坦。而目标函数中针对有标签数据的交叉熵,则是将输入映射到具体的类别上。
因此,前者用来平滑网络,后者通过正确的标签将各个流形关联到具体的类别上。二者结合,可以有效抵抗错误的标签。
这样的解释显然还不足以让人信服,我们将在后续的研究中对这部分工作进行详细的实验,有兴趣的同学也可以自己动手试一试。
文本首先介绍了半监督学习的概念及其应用场景,接下来详细介绍了 2013 年至 2019 年之间,几类典型的半监督学习技术在算法框架和核心思想上的演进,最后对半监督学习中涉及到的部分关键细节,如领域外数据等问题进行了详细讨论。希望本文对于半监督学习技术在产业中的应用落地有所帮助。
最后,再对半监督学习技术做一点讨论和总结:
第一,在半监督学习框架中,从无标签数据中提取有效信号的一般思路可以概括为:在保证语义不变的情况下,运用加噪、数据增强等手段对无标签数据进行变换,然后通过一致性正则等方法来约束模型对于变换前后的数据保持不变性,进而从中提取出信号。
第二,与半监督学习相关的正则技术至少有两类,分别是 Entropy Minimization 和 Consistency Regulation。前者要求模型的决策边界不应该穿过数据分布的高密度区域;后者要求模型应该是光滑的,当输入数据发生微弱变化时,模型的输出也近似不变。
第三,在第 2 节提到研究中,除了 UDA 以外,其他模型的实验都集中在图像问题上。因此,在 NLP 的应用问题上,目前仍然有大量工作值得探索。
点击以下标题查看更多往期内容:
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。