领域自适应(Domain Adaptation, DA)解决从有监督数据集到无监督数据集的知识迁移问题。在深度学习时代,不变表征学习(Invariant Representation Learning)是领域自适应(Domain Adaptation)中的主流方法。不变表征学习减少了源领域(Source Domain)和目标领域(Target Domain)之间的表征分布距离,从而学习到不变表征(Invariant Representation)。不变表征学习构成了领域自适应方法的核心,获得了很大成功,但不可能定理(Impossibility Theorem)揭示出在标签偏移(Label Shift)和领域支撑集偏移(Shift in the Support of Domains)两种困难情况下,不变表征学习具有泛化误差下界,因而具有明显的局限性,是领域自适应的开放性难题。
https://www.zhuanzhi.ai/paper/a264f8364523f5f70bde4936c677a5d4
最近,自训练(Self-training)方法开始被应用到领域自适应问题中。自训练作为半监督学习(Semi-supervised Learning)中的主要方法,先在有监督数据上训练模型,再生成无监督数据的伪标签(Pseudo-labels),最后用真标签和伪标签来共同训练模型。然而在领域自适应问题中,自训练的伪标签会因为源领域和目标领域的分布偏移而变得更加不准确,直接使用全部伪标签将造成误差累积。之前的工作采用可信度阈值(Confidence Threshold)来筛选可靠的伪标签或者给可靠的伪标签更大的权重,然而这类方法不但需要对不同的任务大量调节阈值,而且仍然无法保证分布偏移条件下伪标签的可靠性。
在本文中,我们首先研究了标准自训练在分布偏移条件下的技术挑战及根因。我们发现在无分布偏移条件下,伪标签分布和真标签分布几乎相同,然而在有分布偏移条件下,两者差异很大。即使采用置信度、信息熵等不确定性阈值来筛选,筛选机制的可靠性仍将因为分布偏移而显著下降,最终使得标准自训练在领域自适应问题中失效。为此,本文首次对这一问题开展了深入研究,形成了简单通用有效的循环自训练算法(Cycle Self-Training, CST),并建立了全新的基于扩张假设(Expansion Assumption)的领域自适应泛化理论。
我们的分析表明,有效的自训练方法必须显式建模分布偏移条件下的泛化性。本文提出的循环自训练(Cycle Self-Training, CST),从理论上克服了标准自训练在分布偏移条件下的局限性(见图1)。与以前使用筛选伪标签的方法不同,CST能够学习跨领域泛化的伪标签。具体而言,CST在如下两个步骤中循环:
Inner Loop: 使用目标领域伪标签训练目标分类器;
Outer Loop: 更新共享表征使目标分类器在源领域中表现良好。
同时,本文注意到标准的Gibbs熵会迫使伪标签置信度过高。为了解决这个问题,我们提出了一种基于信息论Tsallis熵的不确定性度量,该度量在不手动设定或调整可信度阈值的情况下即可自适应地最小化伪标签不确定性。大量实验表明,循环自训练算法(CST)具有简单通用有效三大优点,在计算机视觉、自然语言处理的典型任务中表现优异,多个任务达到SOTA效果。
最后,本文建立了全新的基于扩张假设(Expansion Assumption)的领域自适应泛化理论。一方面,在源领域和目标领域满足扩张假设的情况下,目标领域上的期望误差可以被循环自训练(CST)的四个目标函数,即源领域损失函数、目标领域自训练损失函数、源领域与目标领域的循环损失函数、Tsallis熵所控制住。另一方面,我们构造了标准自训练和不变表征学习均失效的困难情况,并严格证明循环自训练(CST)仍可学习到目标领域的真标签。
图片 图1 标准自训练与循环自训练 在标准自训练(Standard Self-Training)中,通过源领域模型生成目标领域伪标签,然后使用源领域真标签和目标领域伪标签共同训练模型;在循环自训练(Cycle Self-Training)中,内循环(Inner Loop)使用目标领域伪标签训练目标分类器,外循环(Outer Loop)更新共享表征使目标分类器在源领域中表现良好。