We study how masking and predicting tokens in an unsupervised fashion can give rise to linguistic structures and downstream performance gains. Recent theories have suggested that pretrained language models acquire useful inductive biases through masks that implicitly act as cloze reductions for downstream tasks. While appealing, we show that the success of the random masking strategy used in practice cannot be explained by such cloze-like masks alone. We construct cloze-like masks using task-specific lexicons for three different classification datasets and show that the majority of pretrained performance gains come from generic masks that are not associated with the lexicon. To explain the empirical success of these generic masks, we demonstrate a correspondence between the Masked Language Model (MLM) objective and existing methods for learning statistical dependencies in graphical models. Using this, we derive a method for extracting these learned statistical dependencies in MLMs and show that these dependencies encode useful inductive biases in the form of syntactic structures. In an unsupervised parsing evaluation, simply forming a minimum spanning tree on the implied statistical dependence structure outperforms a classic method for unsupervised parsing (58.74 vs. 55.91 UUAS).


翻译:我们研究如何以不受监督的方式遮掩和预测象征物,从而产生语言结构和下游业绩收益。最近的一些理论表明,预先培训的语文模式通过隐含为下游任务凝聚减少凝块作用的面罩,获得有用的诱导偏见。我们颇有吸引力地表明,在实践中使用的随机遮掩战略的成功不能仅仅用这种凝胶式的面具来解释。我们用三种不同的分类数据集使用特定任务分类法来构建象凝胶的遮罩,并表明大部分预先培训的性能收益来自与词汇表无关的通用面罩。为了解释这些通用面罩的经验成功,我们展示了蒙蔽语言模式的目标和在图形模型中学习统计依赖性的现有方法之间的对应。我们利用这个方法,可以找出在MLMS中学到的这些统计依赖性,并表明这些依赖性编码在合成结构中有用诱导偏差。在未经监督的评价中,仅仅在隐含的统计依赖性结构上形成最低限度的树宽度。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
274+阅读 · 2020年11月26日
专知会员服务
28+阅读 · 2020年11月4日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
已删除
将门创投
3+阅读 · 2019年9月4日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
3+阅读 · 2018年12月19日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2019年9月4日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员