Pretraining Neural Language Models (NLMs) over a large corpus involves chunking the text into training examples, which are contiguous text segments of sizes processable by the neural architecture. We highlight a bias introduced by this common practice: we prove that the pretrained NLM can model much stronger dependencies between text segments that appeared in the same training example, than it can between text segments that appeared in different training examples. This intuitive result has a twofold role. First, it formalizes the motivation behind a broad line of recent successful NLM training heuristics, proposed for the pretraining and fine-tuning stages, which do not necessarily appear related at first glance. Second, our result clearly indicates further improvements to be made in NLM pretraining for the benefit of Natural Language Understanding tasks. As an example, we propose "kNN-Pretraining": we show that including semantically related non-neighboring sentences in the same pretraining example yields improved sentence representations and open domain question answering abilities. This theoretically motivated degree of freedom for "pretraining example design" indicates new training schemes for self-improving representations.


翻译:对神经语言模型(NLM)进行大量培训前的神经语言模型(NLM)涉及将文本填入培训实例,这些培训实例是神经结构可以处理的大小的相毗的文字部分。我们强调这一共同做法带来的一种偏差:我们证明,培训前的NLM能够在同一培训实例中出现的文字部分之间形成更加强大的依赖性,而不是在不同的培训实例中出现的文字部分之间。这种直观的结果具有双重作用。首先,它正式确定了最近成功NLM培训培训超链接的广泛内容背后的动机,为培训前阶段和微调阶段提出的培训超链接,这些内容不一定在初看起来相关。第二,我们的结果清楚地表明,为了自然语言理解任务,在NLM培训前将作出进一步的改进。举例说,我们建议“kNNN-预备培训”:我们表明,在同一培训前示例中包含与语言有关的非近邻的句子能够改进句式和公开回答问题的能力。这种“预先培训示例设计”具有理论动机的自由程度,表明了自我改进的新的培训计划。

0
下载
关闭预览

相关内容

专知会员服务
88+阅读 · 2021年6月29日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
29+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
3+阅读 · 2019年1月29日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Arxiv
0+阅读 · 2021年12月19日
Arxiv
11+阅读 · 2021年2月17日
Arxiv
5+阅读 · 2020年10月21日
Learning by Abstraction: The Neural State Machine
Arxiv
6+阅读 · 2019年7月11日
Arxiv
19+阅读 · 2018年10月25日
Arxiv
7+阅读 · 2018年5月23日
VIP会员
相关VIP内容
专知会员服务
88+阅读 · 2021年6月29日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
29+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
3+阅读 · 2019年1月29日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
相关论文
Arxiv
0+阅读 · 2021年12月19日
Arxiv
11+阅读 · 2021年2月17日
Arxiv
5+阅读 · 2020年10月21日
Learning by Abstraction: The Neural State Machine
Arxiv
6+阅读 · 2019年7月11日
Arxiv
19+阅读 · 2018年10月25日
Arxiv
7+阅读 · 2018年5月23日
Top
微信扫码咨询专知VIP会员