【斯坦福】探究预训练语言模型中的可迁移性,Investigating Transferability in PLM

2020 年 5 月 3 日 专知

虽然探测是在预训练模型表示中识别知识的一种常见技术,但是尚不清楚这种技术是否能够解释像BERT这样在finetuning中端到端训练的模型的下游成功。为了解决这个问题,我们将探测与一种不同的可转移性度量进行比较:部分重新初始化的模型的微调性能的下降。该技术表明,在BERT中,对下游粘合任务具有高探测精度的层对这些任务的高精度来说既不是必要的,也不是充分的。此外,数据集的大小影响层的可移植性:一个人拥有的精细数据越少,BERT的中间层和后中间层就越重要。此外,BERT并没有简单地为各个层找到更好的初始化器;相反,层次之间的相互作用很重要,在细化之前重新排序BERT的层次会极大地损害评估指标。这些结果提供了一种理解参数在预训练语言模型中的可转移性的方法,揭示了这些模型中转移学习的流动性和复杂性。

https://arxiv.org/abs/2004.14975


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“TPLM” 就可以获取探究预训练语言模型中的可迁移性,Investigating Transferability in PLM》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

BERT技术体系综述论文:40项分析探究BERT如何work
专知会员服务
139+阅读 · 2020年3月1日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
Arxiv
7+阅读 · 2018年4月24日
VIP会员
相关VIP内容
BERT技术体系综述论文:40项分析探究BERT如何work
专知会员服务
139+阅读 · 2020年3月1日
Top
微信扫码咨询专知VIP会员