在自然语言处理(NLP)领域的最新进展中,大规模预训练语言模型(PLMs)发挥了重要作用,这些模型基于深度 Transformer 神经网络。这些PLMs通过在大量无标签文本上使用自监督学习技术进行模型的整体训练,同时学习上下文化的单词表示和语言建模,引发了一种范式转变,将我们的焦点从为不同任务定制不同模型转向将一个PLM适应所有任务。研究如何将通用PLM适应到特定的感兴趣领域对于PLMs的部署具有重大意义。主流做法是在目标领域的标注数据集上对PLM进行微调,并使用特定任务的头部。然而,对于大多数目标应用,标注数据有限,甚至在许多资源稀缺的场景中十分稀缺。PLM中的大量参数常常使这些小数据集难以利用语言先验的力量。因此,即使在同一任务下,当一个在一个数据集上微调的PLM应用到具有一些领域间隙的另一个数据集时,由于过度拟合之前的训练集,它有时会遇到性能下降。这种现象阻碍了PLMs在实践中的广泛应用,尤其是在面对新领域时,需要增强PLMs在适应过程中的泛化性能的方法,而无需请求更多的标注数据。
早期的领域适应方法,利用类似的源领域来提高目标领域上的模型性能,是基于使用传统神经网络(如LSTMs)的定制模型开发的。这些模型较浅,需要更长的训练时间才能收敛,并且与PLMs相比没有先验知识。研究表明,一些流行的领域适应方法甚至可能损害PLMs在目标领域上的泛化性能。PLMs的独特特性,如前所未有的规模、丰富的语言先验和许多迄今为止未被深入探索的技能,可能成为无法控制的因素,使它们表现出与传统模型不同的学习行为。为此,需要开发PLMs的算法,以提高它们的领域适应性能,从而加速它们在实际场景中的广泛应用。
本论文的目标是探索可以高效利用目标领域标签数据的技术,通过有效地从类似的源领域向目标领域转移知识,更好地将给定的PLM适应到感兴趣的目标领域。为了实现这个目标,我从机器学习流程中的三个角度进行研究,每个角度都假定只有特定的位置可以用可用的计算资源进行更新。也就是说,我们保持所有其他条件不变,只对输入数据、模型表示和输出预测分别进行更新。我们展示了如何在每个场景下用目标领域的有限标注数据获得更好的泛化性能。总的来说,我们提出了一个新的算法,使用领域适应目标生成对抗性扰动,以增强在低资源场景下软提示调优的可转移性,一个新的模型优化算法,当优化任务分类器以适应竞争损失时,考虑对抗性领域判别器的下一步梯度,以及一个新的联邦学习框架,校准条件概率分布,以在不同标签分布下将同一PLM适应到多个领域。我们在以下章节中详细介绍了具体问题、相关工作、详细方法、广泛实验和深入讨论,并阐明了如何在迎合新兴学习范式的同时,依据传统的机器学习方法。