In deep neural network modeling, the most common practice is to stack a number of recurrent, convolutional, or feed-forward layers in order to obtain high-quality continuous space representations which in turn improves the quality of the network's prediction. Conventionally, each layer in the stack has its own parameters which leads to a significant increase in the number of model parameters. In this paper, we propose to share parameters across all layers thereby leading to a recurrently stacked neural network model. We report on an extensive case study on neural machine translation (NMT), where we apply our proposed method to an encoder-decoder based neural network model, i.e., the Transformer model, and experiment with three Japanese--English translation datasets. We empirically demonstrate that the translation quality of a model that recurrently stacks a single layer 6 times, despite having significantly fewer parameters, approaches that of a model that stacks 6 layers where each layer has different parameters. We also explore the limits of recurrent stacking where we train extremely deep NMT models. This paper also examines the utility of our recurrently stacked model as a student model through transfer learning via leveraging pre-trained parameters and knowledge distillation, and shows that it compensates for the performance drops in translation quality that the direct training of recurrently stacked model brings. We also show how transfer learning helps in faster decoding on top of the already reduced number of parameters due to recurrent stacking. Finally, we analyze the effects of recurrently stacked layers by visualizing the attentions of models that use recurrently stacked layers and models that do not.


翻译:在深神经网络建模中,最常见的做法是堆叠一系列经常性、革命性或向前进的神经机器翻译(NMT)的广泛案例研究,我们将我们提出的方法应用于基于编码-脱coder的经常网络模型,即变换器模型,从而提高网络预测的质量。在常规层面,堆叠中的每个层都有自己的参数,导致模型参数数量大幅增加。在本文中,我们提议在所有层中共享参数,从而形成一个反复叠叠叠的神经网络模型。我们报告关于神经机器翻译(NMT)的广泛案例研究,我们在报告中将我们提出的方法应用于基于编码-脱coder的经常网络模型,即变换器模型,以及三个日文-英文翻译数据集的实验。我们从经验上表明,一个反复叠叠叠叠的模型的翻译质量,尽管参数要少得多得多,要接近一个堆叠6层的模型,每个层有不同的参数。我们还探讨了经常堆叠的堆叠参数的限度,我们用来培训非常深的NMT模型。本文还审视了我们反复叠的堆叠模型的效用,通过不断的堆叠式的堆叠模型,通过学习不断的升级的学习,最终展示学习,让学生学习的堆叠质量模型,从而展示学习,最终展示学习,学习,学习,学习,学习,从而显示,学习,学习,学习的堆叠的堆叠的堆叠的升级的升级的升级的升级的升级的升级,最终的学习,学习,学习,学习,学习,最终的升级,学习,学习,学习,学习,最终,学习,学习,学习,学习,学习,学习,学习,学习,学习,学习,学习,学习,学习,学习,学习,学习,学习,学习,学习,学习,学习,学习,最终,学习,学习,学习,学习,学习,学习,学习,学习,最终,学习,学习,学习,学习,学习,学习。

0
下载
关闭预览

相关内容

【干货书】真实机器学习,264页pdf,Real-World Machine Learning
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
LibRec 精选:从0开始构建RNN网络
LibRec智能推荐
5+阅读 · 2019年5月31日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
5+阅读 · 2018年5月28日
Arxiv
3+阅读 · 2018年4月18日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
5+阅读 · 2018年1月16日
VIP会员
相关VIP内容
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
LibRec 精选:从0开始构建RNN网络
LibRec智能推荐
5+阅读 · 2019年5月31日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
相关论文
Top
微信扫码咨询专知VIP会员