Recurrent neural networks (RNNs) are powerful dynamical models for data with complex temporal structure. However, training RNNs has traditionally proved challenging due to exploding or vanishing of gradients. RNN models such as LSTMs and GRUs (and their variants) significantly mitigate the issues associated with training RNNs by introducing various types of {\it gating} units into the architecture. While these gates empirically improve performance, how the addition of gates influences the dynamics and trainability of GRUs and LSTMs is not well understood. Here, we take the perspective of studying randomly-initialized LSTMs and GRUs as dynamical systems, and ask how the salient dynamical properties are shaped by the gates. We leverage tools from random matrix theory and mean-field theory to study the state-to-state Jacobians of GRUs and LSTMs. We show that the update gate in the GRU and the forget gate in the LSTM can lead to an accumulation of slow modes in the dynamics. Moreover, the GRU update gate can poise the system at a marginally stable point. The reset gate in the GRU and the output and input gates in the LSTM control the spectral radius of the Jacobian, and the GRU reset gate also modulates the complexity of the landscape of fixed-points. Furthermore, for the GRU we obtain a phase diagram describing the statistical properties of fixed-points. Finally, we provide some preliminary comparison of training performance to the various dynamical regimes, which will be investigated elsewhere. The techniques introduced here can be generalized to other RNN architectures to elucidate how various architectural choices influence the dynamics and potentially discover novel architectures.


翻译:经常性神经网络(RNN)是具有复杂时间结构的强大动态数据模型。然而,培训RNNS历来证明由于梯度的爆炸或消失而具有挑战性。LSTMS和GRUs(及其变体)等RNNS模型通过在结构中引入各种类型的“星格”单位,大大缓解了与培训RNS有关的问题。虽然这些门户在经验上提高了性能,但增加大门如何影响GRUs和LSTMs的动态和可训练性却不为人所熟知。在这里,我们从随机初始的LSTMS和GRRUs作为动态系统来研究随机初始的LSTMs和GRUs的动态。我们从随机矩阵理论和平均理论中利用工具来研究RNNNNS的状态-状态和状态的雅各单元。我们显示GRU和LSTMs的遗忘大门能够导致动态模式的累积。此外,GRUMS的更新门可以将系统调整到稍微稳定点的系统。我们GRRRMS的深度结构结构结构的重新定位和输出结构。

0
下载
关闭预览

相关内容

循环神经网络的一种门机制
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
173+阅读 · 2020年5月6日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
78+阅读 · 2020年2月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
一文读懂LSTM和循环神经网络
七月在线实验室
8+阅读 · 2018年4月18日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Bivariate Beta LSTM
Arxiv
6+阅读 · 2019年10月7日
Arxiv
6+阅读 · 2019年3月19日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
4+阅读 · 2015年8月25日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
一文读懂LSTM和循环神经网络
七月在线实验室
8+阅读 · 2018年4月18日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Bivariate Beta LSTM
Arxiv
6+阅读 · 2019年10月7日
Arxiv
6+阅读 · 2019年3月19日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
4+阅读 · 2015年8月25日
Top
微信扫码咨询专知VIP会员