Fitting complex patterns in the training data, such as reasoning and commonsense, is a key challenge for language pre-training. According to recent studies and our empirical observations, one possible reason is that some easy-to-fit patterns in the training data, such as frequently co-occurring word combinations, dominate and harm pre-training, making it hard for the model to fit more complex information. We argue that mis-predictions can help locate such dominating patterns that harm language understanding. When a mis-prediction occurs, there should be frequently co-occurring patterns with the mis-predicted word fitted by the model that lead to the mis-prediction. If we can add regularization to train the model to rely less on such dominating patterns when a mis-prediction occurs and focus more on the rest more subtle patterns, more information can be efficiently fitted at pre-training. Following this motivation, we propose a new language pre-training method, Mis-Predictions as Harm Alerts (MPA). In MPA, when a mis-prediction occurs during pre-training, we use its co-occurrence information to guide several heads of the self-attention modules. Some self-attention heads in the Transformer modules are optimized to assign lower attention weights to the words in the input sentence that frequently co-occur with the mis-prediction while assigning higher weights to the other words. By doing so, the Transformer model is trained to rely less on the dominating frequently co-occurring patterns with mis-predictions while focus more on the rest more complex information when mis-predictions occur. Our experiments show that MPA expedites the pre-training of BERT and ELECTRA and improves their performances on downstream tasks.


翻译:适应培训数据中的复杂模式,如推理和常识,是语言培训前的一个关键挑战。根据最近的研究和我们的经验观察,一个可能的原因是培训数据中一些容易适应的模式,例如经常同时出现的单词组合、支配和伤害预培训,使得模型很难适应更复杂的信息。我们争辩说,错误预测有助于找到这种妨碍语言理解的主导模式。当发生错误预测时,应该经常出现与错误预测的词一起的错误预测模式相联的模式,从而导致错误预测。根据最近的研究和我们的经验观察,一个可能的原因是,如果在培训数据中能够增加一些容易适应的模式,从而在出现错误预测时,可以减少对模式的偏差模式的偏差,并更多地关注其余的微妙模式,使更多的信息能够有效地适应培训前的复杂信息。根据这一动机,我们提出了一种新的语言预培训方法,即错误预测作为危害警报。在培训前发生错误预测时,我们使用更偏差的偏差的偏差模式,从而导致错误预测的偏差模式导致错误预测的周期模式。如果我们能够增加正规化模式来训练模型,那么,那么,我们就会使用它用来规范模式来训练模型来训练模型来减少模式,从而指导模型,而经常调整模型的偏差的偏差,同时将部分的偏差的偏差的偏差,同时将部分的偏差的偏差的偏差信息,同时将调整我们会将一些对数的轨道的偏差的偏差的偏差的偏差的偏差,同时将显示,同时将显示,同时让数的偏差的偏差的偏差的偏差的偏差的偏差的偏差的偏差的偏差的偏差的偏差的偏差的偏差的偏差会将部分会将令的偏差的偏差的偏差的偏差的偏差的偏差的偏差会将令的偏差会将令将令将令将令将令将令将令将令会将调整会让,同时将令将令到分值将令将令到分值调整调整调整调整到分值将令将令将令将令到最重值将令到最重,同时将令的偏差的偏差调整值调整值调整值调整值调整值将令 。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
一份简单《图神经网络》教程,28页ppt
专知会员服务
125+阅读 · 2020年8月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
【知识图谱@ACL2020】Knowledge Graphs in Natural Language Processing
专知会员服务
66+阅读 · 2020年7月12日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
已删除
将门创投
8+阅读 · 2019年8月28日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
338页新书《Deep Learning in Natural Language Processing》
机器学习算法与Python学习
9+阅读 · 2018年11月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Type-augmented Relation Prediction in Knowledge Graphs
Arxiv
6+阅读 · 2019年9月4日
Arxiv
5+阅读 · 2017年9月8日
VIP会员
相关VIP内容
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
已删除
将门创投
8+阅读 · 2019年8月28日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
338页新书《Deep Learning in Natural Language Processing》
机器学习算法与Python学习
9+阅读 · 2018年11月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员