Given the success of the gated recurrent unit, a natural question is whether all the gates of the long short-term memory (LSTM) network are necessary. Previous research has shown that the forget gate is one of the most important gates in the LSTM. Here we show that a forget-gate-only version of the LSTM with chrono-initialized biases, not only provides computational savings but outperforms the standard LSTM on multiple benchmark datasets and competes with some of the best contemporary models. Our proposed network, the JANET, achieves accuracies of 99% and 92.5% on the MNIST and pMNIST datasets, outperforming the standard LSTM which yields accuracies of 98.5% and 91%.


翻译:鉴于大门的经常性单元的成功,一个自然的问题是,长期短期内存(LSTM)网络的所有大门是否都有必要。先前的研究显示,忘记大门是LSTM中最重要的大门之一。在这里,我们显示,只有忘记大门的LSTM版本,带有时序初始偏差,不仅提供了计算节余,而且超过了多个基准数据集的标准LSTM,并与一些当代最佳模型竞争。我们提议的网络JANET在MNIST和PMNIST数据集上实现了99%和92.5%的默认,超过了标准LSTM,该标准生成98.5%和91%的默认值。

0
下载
关闭预览

相关内容

MIT-深度学习Deep Learning State of the Art in 2020,87页ppt
专知会员服务
62+阅读 · 2020年2月17日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
78+阅读 · 2020年2月3日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
4+阅读 · 2015年8月25日
VIP会员
Top
微信扫码咨询专知VIP会员