The prevalent approach to sequence to sequence learning maps an input sequence to a variable length output sequence via recurrent neural networks. We introduce an architecture based entirely on convolutional neural networks. Compared to recurrent models, computations over all elements can be fully parallelized during training and optimization is easier since the number of non-linearities is fixed and independent of the input length. Our use of gated linear units eases gradient propagation and we equip each decoder layer with a separate attention module. We outperform the accuracy of the deep LSTM setup of Wu et al. (2016) on both WMT'14 English-German and WMT'14 English-French translation at an order of magnitude faster speed, both on GPU and CPU.


翻译:通过经常性神经网络绘制一个输入序列的顺序,以绘制一个可变长输出序列的输入序列。我们引入了一个完全以进化神经网络为基础的结构。与经常性模型相比,所有元素的计算在培训和优化期间可以完全平行,因为非线性的数量是固定的,与输入长度无关。我们使用门式线性单元可以缓解梯度传播,我们为每个解码层配备一个单独的注意模块。我们比WMT'14英语-德语和WMT'14英语-法语翻译的深度LSTM设置的准确性要高得多,以更快的速度在GPU和CPU上。

4
下载
关闭预览

相关内容

元学习(meta learning) 最新进展综述论文
专知会员服务
278+阅读 · 2020年5月8日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
Deep Learning & Neural Network 免费学习资源【译】
乐享数据DataScientists
5+阅读 · 2017年8月20日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
15+阅读 · 2018年2月4日
Arxiv
5+阅读 · 2017年9月8日
VIP会员
Top
微信扫码咨询专知VIP会员