半监督学习(Semi-supervised learning, SSL)是机器学习的一个分支,其目的是在标签不足的情况下利用未标记的数据来提高学习性能。最近,具有深度模型的SSL已被证明在标准基准测试任务上是成功的。然而,在现实应用中,它们仍然容易受到各种健壮性威胁,因为这些基准提供了完美的无标签数据,而在现实场景中,无标签数据可能被破坏。许多研究人员指出,在利用被破坏的未标记数据后,SSL会遭受严重的性能退化问题。因此,迫切需要研发SSL算法,能够稳健地处理损坏的未标记数据。为了充分理解健壮的SSL,我们进行了一项调查研究。我们首先从机器学习的角度阐明了健壮SSL的正式定义。然后,我们将鲁棒性威胁分为三类: i) 分布损坏,即未标记数据分布与标记数据不匹配; ii) 特征损坏,即未标记例子的特征被敌方攻击; iii) 标签损坏,即未标签数据的标签分布不均衡。在这个统一的分类下,我们提供了一个全面的综述和讨论最近的工作,重点关注这些问题。最后,我们提出了在健壮SSL中可能的有前途的方向,为未来的研究提供了见解。
https://arxiv.org/abs/2202.05975
引言
机器学习,特别是深度学习[1],在图像分类[2]、物体检测[3]、语音识别[4]、产品推荐[5]、自然语言处理[6]等任务上取得了令人印象深刻的性能和成功的应用。通常,机器学习模型是从包含大量训练示例的训练数据集中学习的。一个训练示例由两部分组成:描述示例所对应的事件/对象的特征向量,以及指示ground-truth输出的标签。例如,在图像分类任务中,feature是图像中的像素,label是图像所属的类别。大多数成功的机器学习技术都需要为大规模的训练数据集提供ground-truth标签,例如ImageNet数据集,该数据集包含数百万张标签图像,用于图像分类任务。然而,在许多现实世界的应用中,获取如此多的带标签的数据可能是一个挑战,因为带标签的示例获取[7],[8],[9],[10]通常是困难的、昂贵的或耗时的。例如,在医学图像分析任务中,不可能期望医学专家为所有医学图像标记病变。另一方面,无标签数据通常是廉价和丰富的,我们可以从医院收集大量的无标签医学图像。因此,机器学习模型能够处理无标记数据是非常理想的。
在标注数据不足的情况下,采用学习范式提高学习性能。SSL的研究可以追溯到20世纪90年代,当时在现实世界的应用中,对未标记数据的需求不断上升,推动了这一领域的发展。据我们所知,SSL跨越了机器学习的两个重要阶段:统计学习(即浅学习)和深度学习。在统计学习阶段,SSL方法可以分为四种代表性的学习范式: i)生成式SSL方法[11]、[12]、[13]、半监督支持向量机(S3VM)[14]、[15]、[16]、[17]、基于图的SSL[18]、[19]、[20]、[21]和基于分歧的SSL[22]。我们推荐感兴趣的读者阅读[23]和[7],它们提供了统计SSL方法的全面概述。2012年,Geoffrey Hinton的团队利用深度神经网络AlexNet[2]在ImageNet的比赛中以显著优势获胜,从此深度学习在机器学习领域占据主导地位。因此,引入了深度模型对经典SSL框架的优势的深度SSL引起了广泛的关注,并提出了大量的深度SSL方法。深SSL方法可以分为五类,即一致性正则化方法[24],[25],[26],[27],[28],[29],[30],[31],[32],[33],pseudo-labeling方法[34],[35],[36],[37],[38],[39],[40],[41],[42],[43],[44],整体一致性正则化方法和pseudo-labeling [45], [46], [47], [48], [49],deep生成SSL方法[50]、[51]、[52]、[53]、[54]、[55]和deep graph-based SSL方法[56]、[57]、[58]、[59]、[60]。深度SSL方法已成功应用于图像分类[49]、目标检测[61]、语义分割[62]、文本分类[63]、问题回答[64]等任务。据报道,在某些情况下,比如图像分类[49],深度SSL方法可以实现纯监督学习的性能,即使在给定数据集中的大部分标签已经被丢弃的情况下。
鲁棒半监督学习
上述所有积极的结果都是基于一个条件,即无标签数据是完美的,允许SSL利用它来提高性能。无标记数据的完善在于两个方面: 首先,对于有标记数据和无标记数据之间的关系,SSL意味着有标记数据集和无标记数据集从同一个分布中独立抽取,从而利用无标记数据提高学习性能。因此,完美的无标签数据要求无标签数据的分布与有标签数据的分布一致。此外,对于无标签数据本身,完美的无标签数据要求数据的两个基本组成部分——特征分布和标签分布(未知)不被破坏。然而,在现实世界的应用中,期望一个完美的无标签数据集是困难的,甚至是不可能的,因为没有标签的数据不能被手工验证,否则它违背了SSL减少人工劳动的目的。因此,不可避免地会遇到不完美(或损坏)的未标记数据,例如对抗的未标记例子、分发外的未标记例子、类别不平衡的未标记数据等。许多研究人员已经指出,SSL的性能容易受到这些损坏的未标记数据[9],[65],[66],[67],[68],[69],[70],[71]的影响。例如,当未标记数据集包含分发外示例时,SSL算法会出现性能下降问题[66],[67];当未标记的例子被敌方攻击时,SSL模型可能会做出错误的预测[63]、[71]、[72];当未标记的数据集是类不平衡时,SSL在少数类上表现很差[69],等等。
为了将SSL技术应用到更广泛的应用,迫切需要研究健壮的SSL方法,也就是说,当未标记的数据被破坏时,确保SSL算法不会遭受严重的性能下降,如图1所示。如上所述,通常有三种类型的未标记数据损坏。第一种是分布损坏,即,未标记数据的分布与标记数据的分布不同。这种情况发生在各种任务中。例如,在图像分类中,从互联网上收集的无标签图像通常包含非分布的图像[66]。第二种是特征损坏,即未标记示例的特征被噪声恶意干扰。再考虑图像分类任务,很容易将对抗特征噪声注入到无标签图像中[72],[73]。第三种类型是标签损坏,即,未标签数据的标签分布(未知)是高度倾斜的。这种情况是自然发生的。例如,在图像分类中,我们日常生活中视觉类目的频率分布是长尾的[74],常见的标签很少,罕见的标签更多。SSL中健壮性威胁的总体分类如图2所示。
健壮SSL是一个综合性术语,涵盖了各种试图通过学习标记数据和损坏的未标记数据来构建健壮预测模型的研究。在本文中,我们将讨论这一研究领域的一些进展,重点是学习分布损坏、特征损坏和标签损坏的未标签数据。为了清楚而具体地解释健壮的SSL,我们将重点讨论深层SSL方法。据我们所知,我们是第一个对健壮的深度SSL进行调研的人。目前已有一些关于浅SSL[7]、[23]和深SSL算法的研究[75],但不包括健壮SSL的研究。Li和Liang[76]对安全SSL进行了调研,但他们主要关注的是统计(即浅层)SSL方法。我们的主要贡献可以总结如下。
我们瞄准了关键但却被忽视的健壮SSL问题。从机器学习的角度,给出了健壮SSL的形式化定义。该定义不仅具有足够的普遍性,可以包括现有的健壮SSL方法,而且具有足够的特殊性,可以阐明健壮SSL的目标是什么。
我们指出,无标签数据损坏是对SSL的健壮性威胁,并提供了一个完整的分类无标签数据损坏类型,即分布损坏、特征损坏和标签损坏。我们给出了每个问题的形式化定义和标准化描述。这有助于其他研究人员清楚地理解健壮的SSL。 对于每一种健壮性威胁,我们都对最近构建健壮SSL模型的工作进行了全面的回顾。他们的关系,pros, and cons也被讨论。您可以很快掌握健壮SSL的前沿思想。 在现有的健壮SSL研究之外,我们提出了几个有前景的未来方向,如健壮的通用数据类型,健壮的复合弱监督数据,健壮的SSL与领域知识,在动态环境中学习,以及构建真实的数据集。我们希望它们能够为健壮的SSL研究提供一些见解
鲁棒半监督学习
分布损坏
SSL通常假设所有标记和未标记的示例都是从相同的底层数据分布中采样的IID。然而,在实际应用中,经常会发现未标记的数据分布与标记的数据分布不同。下图提供了针对分布不匹配的健壮SSL方法的分类。解决SSL标签分布不匹配问题的两种主要策略是: 对未标记样本分配不同权重的样例调整权重和开放集检测评分,旨在设计一种开放集检测评分机制。样例重权与开集检测分值的区别在于,开集检测分值可以看作是一个仅包含0和1的离散权值,它们简单地舍弃开集样本,对所有保留的样本一视同仁。理想情况下,示例重新加权方法可以导致更好的性能,因为并非所有未标记的示例都是一样的,即使是所有的内集示例[97]。但在实际中,最优权重的计算较为困难,需要开发高效、准确的优化方法。开放集检测评分方法的性能取决于评分机制。学习如何设计一个更好的评分函数是提高模型性能的关键。
特征损坏 特性损坏是指给定示例的特性被恶意干扰,从而导致学习到的模型对目标示例进行错误分类。下图提供了用于特性损坏的健壮SSL方法的分类。攻击技术主要有两种策略:误导性的序列注入和对抗性的扰动生成。所有这些方法都可以欺骗SSL模型,使其做出任何预期的错误预测。不同的是,误导序列注入在给定的训练数据中增加了新的训练样本,而扰动生成方法直接对给定的训练样本进行扰动。在防御技术方面,主要有两种策略:鲁棒正则化和分布鲁棒学习。由于鲁棒正则化方法直接在原损失函数中加入可微正则化项,因此相对于DRL方法,鲁棒正则化方法更易于优化。DRL的优点在于它具有良好的理论性质。
标签损坏 SSL方法假设无标签数据(未知)的标签分布是平衡的,即每个类中的示例数量几乎相等。然而,在许多现实场景中,训练数据的底层类分布是高度不平衡的。下图提供了用于标记损坏的健壮SSL方法的分类。如前所述,SSL中处理标签损坏问题的策略可以分为伪标签对齐方法、实例重权方法和实例重权方法。伪标签对齐方法的优点是,改进后的伪标签可以匹配到无标签数据的类分布的ground-真值,缺点是需要知道无标签数据类分布的ground-真值,这在实际任务中很难获得。另外,分布估计的精度对方法的性能影响很大。重权法和重抽样法是处理班级不平衡学习问题的经典方法。然而,在SSL任务中,由于它们不能直接根据标签重新采样或重新加权示例,因此它们需要比监督设置中更多的计算成本,原因是它们具有复杂的训练过程或难以实现的优化目标。