Given the success of the gated recurrent unit, a natural question is whether all the gates of the long short-term memory (LSTM) network are necessary. Previous research has shown that the forget gate is one of the most important gates in the LSTM. Here we show that a forget-gate-only version of the LSTM with chrono-initialized biases, not only provides computational savings but outperforms the standard LSTM on multiple benchmark datasets and competes with some of the best contemporary models. Our proposed network, the JANET, achieves accuracies of 99% and 92.5% on the MNIST and pMNIST datasets, outperforming the standard LSTM which yields accuracies of 98.5% and 91%.


翻译:鉴于大门的经常性单元的成功,一个自然的问题是,长期短期内存(LSTM)网络的所有大门是否都有必要。先前的研究显示,忘记大门是LSTM中最重要的大门之一。在这里,我们显示,只有忘记大门的LSTM版本,带有时序初始偏差,不仅提供了计算节余,而且超过了多个基准数据集的标准LSTM,并与一些当代最佳模型竞争。我们提议的网络JANET在MNIST和PMNIST数据集上实现了99%和92.5%的默认,超过了标准LSTM,该标准生成98.5%和91%的默认值。

0
下载
关闭预览

相关内容

【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
revelation of MONet
CreateAMind
5+阅读 · 2019年6月8日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
VIP会员
相关VIP内容
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Top
微信扫码咨询专知VIP会员