语言是民主化土地和文化边界的通道。在人工智能(AI)系统中,桥接不同语言之间的差距是最大的挑战之一。目前AI系统的成功主要由监督学习范式所主导,其中基于梯度的学习算法(例如SGD、Adam)被设计用来优化复杂的高维平面。这些算法从通常为特定任务(如产品评论、情感分析)收集的统计观察中学习。使用任务依赖样本使学习过程变得繁琐,因为它需要手动注释数据。相反,如果没有足够的样本来代表分布,深度学习模型往往因缺乏鲁棒性而受到影响。由于随机性的自然难题,数据收集过程中并非所有观察集都被观察到,从而在学习算法中创造了分布外(OOD)问题。
在寻找一种通用的任务不可知分布时,可以将跨多个领域的大量文本集合视为-标准自然文本分布(SNTD)。传统自然语言处理(NLP)中迁移学习的一般想法是利用SNTD知识进行任何其他任务依赖训练。学习SNTD,接着用较少量的注释数据进行任务适应方法,已在各种监督NLP任务中取得了最先进(SOTA)结果。然而,每个任务的每种语言的注释数据都是罕见的。
在语言模型中,有许多种分布差异。分布差异被编码进语言模型的最常见方式之一是当模型用单语文本训练并学习分离时。然后,这些语言模型产生的词嵌入被用作预训练的嵌入向量,以适应下游任务。我们提出对抗性训练,将两个单语分布投射到相同空间中,然后通过带参数共享的增强微调提高模型的鲁棒性。通过将单语言分布投射到相同的跨语言空间中,使语言分布相互了解。这些投射分布在潜在空间中在语义上相互了解。因此,当我们训练一个分布时,另一个分布会自动适应训练数据,使知识转移(交换)变得更容易。此外,我们提出的新型自我训练架构大幅提高了跨语言转移。
接下来,我们关注联合训练的多语言语言模型,其中没有主导的分布差异。在多语言模型中,我们更加关注下游任务的适应。我们发现,使用从预训练语言模型中生成的伪增强数据的半监督学习可以大大提高下游任务的性能。最后,我们介绍了一种新颖的数据增强框架,它使用原始训练数据的邻近(相邻)样本,而不显式使用任何平行文本语料库或机器翻译系统。我们提出的方法同时进行自我训练、数据增强和无监督样本选择。它还为不同领域样本提出了课程策略。通过对三种不同的跨语言任务进行广泛的实验,我们展示了我们所提方法的有效性。
虽然以上所有工作都集中在提高多语言任务适应性而无需监督,但我们进一步研究了添加少量样本如何影响多语言任务适应性。为此,我们利用每种语言中少量的支持样本,提出了一种推断时转导的最近邻基方法,该方法利用查询样本的熵进行预测。我们展示了我们提出的方法在完全模型/完全头部微调以及跨任务微调方面的性能优于其他方法。我们还展示了在完整推理预测的计算成本方面的显著性能提升(37~x)。然而,随着语言模型的增大,尤其是对于多任务,进行高效推理变得越来越困难。
联合优化的多语言分布有助于将知识从资源丰富的语言转移到资源较少的语言。在研究转导最近邻推理时,我们观察到语言模型极易受到任务分布的影响。除非我们使用极大的语言模型(>100B),否则用于特定任务适应的模型不能用于其他任务。在这篇论文中,我们最终提出的方法解决了这个问题,通过多任务提示学习。 多任务提示学习可以通过同时对多个任务和领域进行泛化来帮助泛化,从而增强去除下游任务的分布差异的潜力。我们提出了一种半参数提示调整方法,用于多任务提示学习。我们提出方法的新颖组成部分是一个记忆库,根据离散提示从中检索记忆提示。我们在8个不同领域的31个不同任务上进行的广泛实验表明了我们所提方法的有效性。
本篇论文旨在探索语言模型在多种语言、任务和领域中的适应性。它从基本的多语言适应问题开始,从那里扩展到关于不同资源可用性的多种OOD案例,涉及多种语言、任务和领域。