Memory-augmented neural networks (MANNs) can solve algorithmic tasks like sorting. However, they often do not generalize to lengths of input sequences not seen in the training phase. Therefore, we introduce two approaches constraining the state-space of the network controller to improve the generalization to out-of-distribution-sized input sequences: state compression and state regularization. We show that both approaches can improve the generalization capability of a particular type of MANN, the differentiable neural computer (DNC), and compare our approaches to a stateful and a stateless controller on a set of algorithmic tasks. Furthermore, we show that especially the combination of both approaches can enable a pre-trained DNC to be extended post hoc with a larger memory. Thus, our introduced approaches allow to train a DNC using shorter input sequences and thus save computational resources. Moreover, we observed that the capability for generalization is often accompanied by loop structures in the state-space, which could correspond to looping constructs in algorithms.


翻译:内存增强的神经网络( MANNs) 能够解决排序等算法任务。 但是, 它们通常不会对培训阶段所没有的输入序列的长度进行概括化。 因此, 我们引入了两种限制网络控制器国家空间的方法, 以改善对超出分配规模的输入序列的概括化。 国家压缩和国家规范化。 我们表明两种方法都能提高特定类型 MANN( 差异型神经计算机) 的概括化能力, 比较我们对一套算法任务的国家控制器和无国籍控制器( DNC) 的处理方法。 此外, 我们还表明, 这两种方法的结合可以让经过预先训练的 DNC 以更大的内存来扩展 。 因此, 我们引入的方法可以使用较短的输入序列来培训 DNC, 从而节省计算资源。 此外, 我们观察到, 常规化的能力往往伴随着国家空间的循环结构, 与算法的循环结构相对应 。

0
下载
关闭预览

相关内容

神经计算(Neural Computation)期刊传播在理论、建模、计算方面的重要的多学科的研究,在神经科学统计和建设神经启发信息处理系统。这个领域吸引了心理学家、物理学家、计算机科学家、神经科学家和人工智能研究人员,他们致力于研究感知、情感、认知和行为背后的神经系统,以及具有类似能力的人工神经系统。由BRAIN Initiative开发的强大的新实验技术将产生大量复杂的数据集,严谨的统计分析和理论洞察力对于理解这些数据的含义至关重要。及时的、简短的交流、完整的研究文章以及对该领域进展的评论,涵盖了神经计算的所有方面。 官网地址:http://dblp.uni-trier.de/db/journals/neco/
专知会员服务
22+阅读 · 2021年4月10日
专知会员服务
41+阅读 · 2021年4月2日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
48+阅读 · 2019年9月24日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
8+阅读 · 2021年5月21日
Arxiv
8+阅读 · 2021年2月8日
Arxiv
6+阅读 · 2018年10月3日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关资讯
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员