迁移学习从根本上改变了自然语言处理(NLP)的处理范式。许多最先进的模型首先在大型文本语料库上进行预先训练,然后在下游任务上进行微调。然而,当我们对下游任务的监督有限且薄弱时,由于预训练模型的复杂度极高,过度微调往往会导致微调后的模型对下游任务的训练数据进行过拟合,而不能泛化到看不到的数据。

为了解决这一问题,我们提出了一种新的方法来微调预先训练的模型,以获得更好的泛化性能。我们提出的方法采用了三个重要成分: (1)平滑诱导正则化,有效地管理了大量模型的复杂性; (2) Bregman近端点优化,它是信任域方法的一个实例,可以防止恶意更新;(3)自训练,可以逐步改进模型拟合,有效抑制误差传播。我们的实验表明,在有限或弱监督的情况下,该方法明显优于现有的NLP任务。

成为VIP会员查看完整内容
37

相关内容

预训练模型是深度学习架构,已经过训练以执行大量数据上的特定任务(例如,识别图片中的分类问题)。这种训练不容易执行,并且通常需要大量资源,超出许多可用于深度学习模型的人可用的资源。
【AAAI2021】预训练语言模型最新进展,附113页ppt和视频
专知会员服务
64+阅读 · 2021年2月23日
AAAI2021 | 学习预训练图神经网络
专知会员服务
115+阅读 · 2021年1月28日
少即是多?非参数语言模型,68页ppt
专知会员服务
23+阅读 · 2020年11月22日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
155+阅读 · 2020年5月26日
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
NLP领域中的迁移学习现状
AI科技评论
7+阅读 · 2019年9月1日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
Arxiv
3+阅读 · 2020年2月5日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
相关VIP内容
【AAAI2021】预训练语言模型最新进展,附113页ppt和视频
专知会员服务
64+阅读 · 2021年2月23日
AAAI2021 | 学习预训练图神经网络
专知会员服务
115+阅读 · 2021年1月28日
少即是多?非参数语言模型,68页ppt
专知会员服务
23+阅读 · 2020年11月22日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
155+阅读 · 2020年5月26日
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
微信扫码咨询专知VIP会员