Transfer learning from pre-trained neural language models towards downstream tasks has been a predominant theme in NLP recently. Several researchers have shown that deep NLP models learn non-trivial amount of linguistic knowledge, captured at different layers of the model. We investigate how fine-tuning towards downstream NLP tasks impacts the learned linguistic knowledge. We carry out a study across popular pre-trained models BERT, RoBERTa and XLNet using layer and neuron-level diagnostic classifiers. We found that for some GLUE tasks, the network relies on the core linguistic information and preserve it deeper in the network, while for others it forgets. Linguistic information is distributed in the pre-trained language models but becomes localized to the lower layers post fine-tuning, reserving higher layers for the task specific knowledge. The pattern varies across architectures, with BERT retaining linguistic information relatively deeper in the network compared to RoBERTa and XLNet, where it is predominantly delegated to the lower layers.


翻译:从受过训练的神经语言模型向下游任务转移学习是国家语言平台最近的一个主要主题。一些研究人员已经表明,深入的国家语言平台模型学习的是非三轨语言知识,在模型的不同层面捕获。我们调查了如何微调下游国家语言平台的任务,如何影响所学的语言知识。我们利用层级和神经级诊断分类师,对受过训练的模型BERT、RoBERTA和XLNet进行了一项研究。我们发现,对于一些GLUE任务,网络依靠核心语言信息,在网络中将其保存得更深,而对于其他任务来说,网络则忘记了这一点。语言信息在经过训练的语文模型中传播,但被本地化到较低层次的调整后,为具体任务知识保留更高的层次。不同结构的格局各不相同,与RBERTA和XLNet相比,网络保留的语言信息在网络中较深得多,而后者主要被下放到较低层次。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020
专知会员服务
42+阅读 · 2020年11月22日
【文章|BERT三步使用NLP迁移学习】NLP Transfer Learning In 3 Steps
ICLR 2020会议的16篇最佳深度学习论文
AINLP
5+阅读 · 2020年5月12日
已删除
AI掘金志
7+阅读 · 2019年7月8日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Arxiv
20+阅读 · 2019年9月7日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
5+阅读 · 2018年5月31日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关资讯
ICLR 2020会议的16篇最佳深度学习论文
AINLP
5+阅读 · 2020年5月12日
已删除
AI掘金志
7+阅读 · 2019年7月8日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
相关论文
Arxiv
20+阅读 · 2019年9月7日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
5+阅读 · 2018年5月31日
Arxiv
8+阅读 · 2018年5月15日
Top
微信扫码咨询专知VIP会员