Recursive least squares (RLS) algorithms were once widely used for training small-scale neural networks, due to their fast convergence. However, previous RLS algorithms are unsuitable for training deep neural networks (DNNs), since they have high computational complexity and too many preconditions. In this paper, to overcome these drawbacks, we propose three novel RLS optimization algorithms for training feedforward neural networks, convolutional neural networks and recurrent neural networks (including long short-term memory networks), by using the error backpropagation and our average-approximation RLS method, together with the equivalent gradients of the linear least squares loss function with respect to the linear outputs of hidden layers. Compared with previous RLS optimization algorithms, our algorithms are simple and elegant. They can be viewed as an improved stochastic gradient descent (SGD) algorithm, which uses the inverse autocorrelation matrix of each layer as the adaptive learning rate. Their time and space complexities are only several times those of SGD. They only require the loss function to be the mean squared error and the activation function of the output layer to be invertible. In fact, our algorithms can be also used in combination with other first-order optimization algorithms without requiring these two preconditions. In addition, we present two improved methods for our algorithms. Finally, we demonstrate their effectiveness compared to the Adam algorithm on MNIST, CIFAR-10 and IMDB datasets, and investigate the influences of their hyperparameters experimentally.


翻译:用于培训小规模神经网络(RLS)的变异最小平方(RLS)算法曾经被广泛用于培训小规模神经网络(包括长期内存网络),因为它们快速趋同。然而,以前的RLS算法不适合用于培训深神经网络(DNNS),因为它们具有很高的计算复杂性和太多的先决条件。在本文中,为了克服这些缺点,我们提议了三种新的RLS优化算法,用于培训进取神经网络、进化神经网络和经常性神经网络(包括长期内存网络),方法是使用错误反向反向神经网络(包括长期内存网络),同时使用平均对流法RLS方法,加上线性最小平方损失函数的等梯度,与隐藏层的线性输出值相当。与以前的RLS优化算法相比,我们的算法是简单而优雅的。我们可以把每一层的反向自动通缩矩阵矩阵用作适应性学习速度。它们的时间和空间复杂度只有SGD的数倍。它们只需要损失函数只是与线性最小的最差梯度梯度梯度梯度的梯度梯度梯度的梯度梯度梯度,在我们的亚化中, 也中可以显示中,而我们使用其他的极值。

0
下载
关闭预览

相关内容

神经网络(Neural Networks)是世界上三个最古老的神经建模学会的档案期刊:国际神经网络学会(INNS)、欧洲神经网络学会(ENNS)和日本神经网络学会(JNNS)。神经网络提供了一个论坛,以发展和培育一个国际社会的学者和实践者感兴趣的所有方面的神经网络和相关方法的计算智能。神经网络欢迎高质量论文的提交,有助于全面的神经网络研究,从行为和大脑建模,学习算法,通过数学和计算分析,系统的工程和技术应用,大量使用神经网络的概念和技术。这一独特而广泛的范围促进了生物和技术研究之间的思想交流,并有助于促进对生物启发的计算智能感兴趣的跨学科社区的发展。因此,神经网络编委会代表的专家领域包括心理学,神经生物学,计算机科学,工程,数学,物理。该杂志发表文章、信件和评论以及给编辑的信件、社论、时事、软件调查和专利信息。文章发表在五个部分之一:认知科学,神经科学,学习系统,数学和计算分析、工程和应用。 官网地址:http://dblp.uni-trier.de/db/journals/nn/
专知会员服务
50+阅读 · 2020年12月14日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
使用深度特征进行自适应跟踪时的学习策略
统计学习与视觉计算组
3+阅读 · 2017年9月22日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年10月26日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
7+阅读 · 2019年6月20日
Arxiv
3+阅读 · 2018年10月25日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
4+阅读 · 2017年1月2日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
使用深度特征进行自适应跟踪时的学习策略
统计学习与视觉计算组
3+阅读 · 2017年9月22日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年10月26日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
7+阅读 · 2019年6月20日
Arxiv
3+阅读 · 2018年10月25日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
4+阅读 · 2017年1月2日
Top
微信扫码咨询专知VIP会员