Contemporary wisdom based on empirical studies suggests that standard recurrent neural networks (RNNs) do not perform well on tasks requiring long-term memory. However, precise reasoning for this behavior is still unknown. This paper provides a rigorous explanation of this property in the special case of linear RNNs. Although this work is limited to linear RNNs, even these systems have traditionally been difficult to analyze due to their non-linear parameterization. Using recently-developed kernel regime analysis, our main result shows that linear RNNs learned from random initializations are functionally equivalent to a certain weighted 1D-convolutional network. Importantly, the weightings in the equivalent model cause an implicit bias to elements with smaller time lags in the convolution and hence, shorter memory. The degree of this bias depends on the variance of the transition kernel matrix at initialization and is related to the classic exploding and vanishing gradients problem. The theory is validated in both synthetic and real data experiments.


翻译:基于经验研究的当代智慧表明,标准的经常性神经网络(RNN)在完成需要长期记忆的任务方面表现不佳。然而,这种行为的精确推理仍然未知。本文件在线性RNN的特殊情况下对这一属性作了严格的解释。虽然这项工作仅限于线性RNN,但即使这些系统传统上也由于非线性参数化而难以分析。利用最近开发的内核系统分析,我们的主要结果显示,从随机初始化中学到的线性RNN在功能上等同于某种加权的1D革命网络。重要的是,同等模型的权重对演中时间滞后较小的元素造成隐含的偏差,从而缩短了记忆。这种偏差的程度取决于初始化时的转型内核矩阵的差异,并且与典型的爆炸和消亡梯度问题有关。该理论在合成和真实数据实验中都得到验证。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
108+阅读 · 2020年2月22日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年3月12日
Arxiv
1+阅读 · 2021年3月12日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Arxiv
19+阅读 · 2018年10月25日
Arxiv
4+阅读 · 2015年8月25日
Arxiv
3+阅读 · 2015年5月16日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
108+阅读 · 2020年2月22日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
0+阅读 · 2021年3月12日
Arxiv
1+阅读 · 2021年3月12日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Arxiv
19+阅读 · 2018年10月25日
Arxiv
4+阅读 · 2015年8月25日
Arxiv
3+阅读 · 2015年5月16日
Top
微信扫码咨询专知VIP会员