The pre-dominant approach to language modeling to date is based on recurrent neural networks. Their success on this task is often linked to their ability to capture unbounded context. In this paper we develop a finite context approach through stacked convolutions, which can be more efficient since they allow parallelization over sequential tokens. We propose a novel simplified gating mechanism that outperforms Oord et al (2016) and investigate the impact of key architectural decisions. The proposed approach achieves state-of-the-art on the WikiText-103 benchmark, even though it features long-term dependencies, as well as competitive results on the Google Billion Words benchmark. Our model reduces the latency to score a sentence by an order of magnitude compared to a recurrent baseline. To our knowledge, this is the first time a non-recurrent approach is competitive with strong recurrent models on these large scale language tasks.


翻译:迄今为止,语言建模的先发制人方法以经常性神经网络为基础,他们在这项工作上的成功往往与它们捕捉不受约束的环境的能力有关。在本文中,我们通过堆叠的混杂发展一种有限背景方法,因为这种方法可以使顺序的标牌平行化,因此效率更高。我们建议一种新的简化机制,它优于Oord等人(2016年),并调查主要建筑决定的影响。拟议方法在WikitText-103基准上达到了最新水平,尽管它具有长期依赖性,以及在谷歌十亿字基准上的竞争结果。我们的模型降低了延绳,比经常基线的长度要低。据我们所知,这是非经常性方法首次在大型语言任务上具有强大的反复模式具有竞争力。

5
下载
关闭预览

相关内容

【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
108+阅读 · 2020年2月22日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
75+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
54+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
11+阅读 · 2019年5月6日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
4+阅读 · 2015年8月25日
VIP会员
相关VIP内容
【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
108+阅读 · 2020年2月22日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
75+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
54+阅读 · 2019年10月17日
Top
微信扫码咨询专知VIP会员