语言是民主化土地和文化边界的通道。在人工智能(AI)系统中,桥接不同语言之间的差距是最大的挑战之一。目前AI系统的成功主要由监督学习范式所主导,其中基于梯度的学习算法(例如SGD、Adam)被设计用来优化复杂的高维平面。这些算法从通常为特定任务(如产品评论、情感分析)收集的统计观察中学习。使用任务依赖样本使学习过程变得繁琐,因为它需要手动注释数据。相反,如果没有足够的样本来代表分布,深度学习模型往往因缺乏鲁棒性而受到影响。由于随机性的自然难题,数据收集过程中并非所有观察集都被观察到,从而在学习算法中创造了分布外(OOD)问题。

在寻找一种通用的任务不可知分布时,可以将跨多个领域的大量文本集合视为-标准自然文本分布(SNTD)。传统自然语言处理(NLP)中迁移学习的一般想法是利用SNTD知识进行任何其他任务依赖训练。学习SNTD,接着用较少量的注释数据进行任务适应方法,已在各种监督NLP任务中取得了最先进(SOTA)结果。然而,每个任务的每种语言的注释数据都是罕见的。

在语言模型中,有许多种分布差异。分布差异被编码进语言模型的最常见方式之一是当模型用单语文本训练并学习分离时。然后,这些语言模型产生的词嵌入被用作预训练的嵌入向量,以适应下游任务。我们提出对抗性训练,将两个单语分布投射到相同空间中,然后通过带参数共享的增强微调提高模型的鲁棒性。通过将单语言分布投射到相同的跨语言空间中,使语言分布相互了解。这些投射分布在潜在空间中在语义上相互了解。因此,当我们训练一个分布时,另一个分布会自动适应训练数据,使知识转移(交换)变得更容易。此外,我们提出的新型自我训练架构大幅提高了跨语言转移。

接下来,我们关注联合训练的多语言语言模型,其中没有主导的分布差异。在多语言模型中,我们更加关注下游任务的适应。我们发现,使用从预训练语言模型中生成的伪增强数据的半监督学习可以大大提高下游任务的性能。最后,我们介绍了一种新颖的数据增强框架,它使用原始训练数据的邻近(相邻)样本,而不显式使用任何平行文本语料库或机器翻译系统。我们提出的方法同时进行自我训练、数据增强和无监督样本选择。它还为不同领域样本提出了课程策略。通过对三种不同的跨语言任务进行广泛的实验,我们展示了我们所提方法的有效性。

虽然以上所有工作都集中在提高多语言任务适应性而无需监督,但我们进一步研究了添加少量样本如何影响多语言任务适应性。为此,我们利用每种语言中少量的支持样本,提出了一种推断时转导的最近邻基方法,该方法利用查询样本的熵进行预测。我们展示了我们提出的方法在完全模型/完全头部微调以及跨任务微调方面的性能优于其他方法。我们还展示了在完整推理预测的计算成本方面的显著性能提升(37~x)。然而,随着语言模型的增大,尤其是对于多任务,进行高效推理变得越来越困难。

联合优化的多语言分布有助于将知识从资源丰富的语言转移到资源较少的语言。在研究转导最近邻推理时,我们观察到语言模型极易受到任务分布的影响。除非我们使用极大的语言模型(>100B),否则用于特定任务适应的模型不能用于其他任务。在这篇论文中,我们最终提出的方法解决了这个问题,通过多任务提示学习。 多任务提示学习可以通过同时对多个任务和领域进行泛化来帮助泛化,从而增强去除下游任务的分布差异的潜力。我们提出了一种半参数提示调整方法,用于多任务提示学习。我们提出方法的新颖组成部分是一个记忆库,根据离散提示从中检索记忆提示。我们在8个不同领域的31个不同任务上进行的广泛实验表明了我们所提方法的有效性。

本篇论文旨在探索语言模型在多种语言、任务和领域中的适应性。它从基本的多语言适应问题开始,从那里扩展到关于不同资源可用性的多种OOD案例,涉及多种语言、任务和领域。

成为VIP会员查看完整内容
34

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】可解释深度学习的结构化表示,119页pdf
专知会员服务
67+阅读 · 2023年12月18日
【博士论文】最优传输图表示学习,204页pdf
专知会员服务
44+阅读 · 2023年10月25日
【MIT博士论文】序列博弈中的近似最优学习, 338页pdf
专知会员服务
34+阅读 · 2023年8月31日
【UFPE大学博士论文】基于熵损失的鲁棒深度学习
专知会员服务
41+阅读 · 2022年11月11日
【港科大博士论文】高效迁移学习的低资源自然语言理解
【CMU博士论文】通过记忆的元强化学习
专知会员服务
53+阅读 · 2021年10月16日
专知会员服务
35+阅读 · 2020年11月29日
【MIT博士论文】数据高效强化学习,176页pdf
综述| 当图神经网络遇上强化学习
图与推荐
29+阅读 · 2022年7月1日
最新《图嵌入组合优化》综述论文,40页pdf
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月8日
Arxiv
156+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【博士论文】可解释深度学习的结构化表示,119页pdf
专知会员服务
67+阅读 · 2023年12月18日
【博士论文】最优传输图表示学习,204页pdf
专知会员服务
44+阅读 · 2023年10月25日
【MIT博士论文】序列博弈中的近似最优学习, 338页pdf
专知会员服务
34+阅读 · 2023年8月31日
【UFPE大学博士论文】基于熵损失的鲁棒深度学习
专知会员服务
41+阅读 · 2022年11月11日
【港科大博士论文】高效迁移学习的低资源自然语言理解
【CMU博士论文】通过记忆的元强化学习
专知会员服务
53+阅读 · 2021年10月16日
专知会员服务
35+阅读 · 2020年11月29日
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员