该如何对「半监督学习算法」实际性应用进行评估？

2018 年 4 月 27 日 炼数成金订阅号

半监督学习（Semi-supervised learning，SSL）提供了一个强大的框架，可以在标记有限或昂贵的情况下利用无标记数据。近期，基于深度神经网络的SSL算法已被证明在标准基准任务上是成功的。然而，我们认为，这些基准无法解决这些算法在实际应用程序中遇到的许多问题。在对各种广泛使用的SSL技术进行了统一重新实现（unified reimplemention）之后，我们在一组旨在解决这些问题的实验中对它们进行了测试。我们发现：不使用无标记数据的简单基线的性能经常被低估；SSL方法对标记数据和无标记数据数量的敏感性不同；当无标记数据集包含类外的样本时，其性能会大幅降低。为了帮助指导SSL研究在现实世界的实际应用，我们开源了我们的统一重新实现和评估平台。

深度神经网络已经一再被表明，可以通过利用大量标记数据，在某些监督学习问题上达到人类水平或超越人类水平的性能。然而，这些成功有着不同的代价；也就是说，创建这些大型数据集通常需要大量的人力（以手工对样本增添标记）、痛苦或风险（对于涉及侵入性测试的医疗数据集）或财务费用（用于雇佣标记标注者或构建在特定领域收集数据所需的基础设施）。对于许多实际问题和应用程序来说，没有足够的资源来创建足够大的标记数据集，这限制了深度学习技术的广泛采用。

有一个具有吸引力的方法可以缓解这个问题，就是半监督学习（semi-supervised learning，SSL）框架。与需要所有样本都有标记的监督学习（supervised learning）算法相反，SSL算法可以通过使用无标记样本来提高其性能。SSL算法通常提供一种从无标记样本中学习数据结构的方法，这可以减轻对标记的需求。最近的一些研究结果表明，在某些情况下，SSL能够接近纯粹监督学习的性能，即使在给定的数据集中有很大一部分的标记被丢弃。

每种SSL技术在CIFAR-10（六类动物）上的测试误差，其中，在标记数据与无标记数据之间，存在不同程度的重叠。例如，“25%”是指来自不同类的4种无标记数据之一，而非来自标记数据的6类。“监督”是指不使用无标记数据。阴影区域表示5次试验的标准偏差。

这些最近的成功引出了一个自然的问题：SSL方法是否适用于“现实世界”的环境？在本文中，我们认为，当前评估SSL技术的实际方法并不能以令人满意的方式解决这个问题。具体而言，采用大型标记数据集并丢弃许多标记的标准评估程序没有考虑到SSL应用程序的各种常见特征。我们的目标是通过提出一种新的实验方法来更直接地解决这个问题，我们认为该方法能够更好地测量对现实世界问题的适应性。我们的一些发现包括：

•当给予调优超参数（hyperparameter）相同预算时，使用SSL和使用标记数据之间的性能差距比通常记录的差距要小。

•此外，使用无标记数据的大型、高度正则化的分类器的强大性能证明了在同一个基础模型上评估不同SSL算法的重要性。

•在不同的标记数据集上对分类器进行预先训练，然后仅在利益相关数据集中的标记数据上进行再训练，这可以胜过所有我们研究过的SSL算法。

•当无标记数据包含与标记数据不同的类分布时，SSL技术的性能可能会急剧下降。

•不同的方法对标记数据和无标记数据数量的敏感度有很大不同。

•实际的小型验证集（validation set）会妨碍对不同方法、模型和超参数设置进行可靠的比较。