Neural networks (NN)-based learning algorithms are strongly affected by the choices of initialization and data distribution. Different optimization strategies have been proposed for improving the learning trajectory and finding a better optima. However, designing improved optimization strategies is a difficult task under the conventional landscape view. Here, we propose persistent neurons, a trajectory-based strategy that optimizes the learning task using information from previous converged solutions. More precisely, we utilize the end of trajectories and let the parameters explore new landscapes by penalizing the model from converging to the previous solutions under the same initialization. Persistent neurons can be regarded as a stochastic gradient method with informed bias where individual updates are corrupted by deterministic error terms. Specifically, we show that persistent neurons, under certain data distribution, is able to converge to more optimal solutions while initializations under popular framework find bad local minima. We further demonstrate that persistent neurons helps improve the model's performance under both good and poor initializations. We evaluate the full and partial persistent model and show it can be used to boost the performance on a range of NN structures, such as AlexNet and residual neural network (ResNet).


翻译:基于神经网络(NN)的学习算法受到初始化和数据分布选择的强烈影响。已经提出了不同的优化战略来改进学习轨迹和寻找更好的选择。但是,在常规景观视图下,设计更好的优化战略是一项困难的任务。在这里,我们提出一个基于轨迹的战略,即利用先前趋同解决方案的信息优化学习任务。更确切地说,我们利用轨迹的终点,让参数探索新的景观,将模型从聚合到同一初始化下以前的解决方案的模型加以惩罚。持久性神经元可被视为一种具有知情偏差的随机梯度方法,在这种方法中,个人更新会因确定性错误的术语而腐蚀。具体地说,我们表明,根据某些数据分布,持久性神经元能够趋于最佳的解决方案,而在流行框架下的初始化过程中发现当地迷你。我们进一步证明,持久性神经元有助于改进模型在良好和不良初始化情况下的性能。我们评估了完整和部分持久性模型,并表明它可以用来提升NN结构的性能,如AlexNet和残余神经网络。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年4月2日
【斯坦福CS224W】图神经网络理论,77页ppt
专知会员服务
48+阅读 · 2021年2月13日
专知会员服务
52+阅读 · 2020年11月3日
专知会员服务
44+阅读 · 2020年10月31日
专知会员服务
52+阅读 · 2020年9月7日
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
149+阅读 · 2020年6月28日
专知会员服务
159+阅读 · 2020年1月16日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年5月10日
Arxiv
0+阅读 · 2021年4月9日
Arxiv
18+阅读 · 2021年3月16日
Directional Graph Networks
Arxiv
27+阅读 · 2020年12月10日
Arxiv
7+阅读 · 2020年6月29日
VIP会员
相关VIP内容
专知会员服务
25+阅读 · 2021年4月2日
【斯坦福CS224W】图神经网络理论,77页ppt
专知会员服务
48+阅读 · 2021年2月13日
专知会员服务
52+阅读 · 2020年11月3日
专知会员服务
44+阅读 · 2020年10月31日
专知会员服务
52+阅读 · 2020年9月7日
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
149+阅读 · 2020年6月28日
专知会员服务
159+阅读 · 2020年1月16日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年5月10日
Arxiv
0+阅读 · 2021年4月9日
Arxiv
18+阅读 · 2021年3月16日
Directional Graph Networks
Arxiv
27+阅读 · 2020年12月10日
Arxiv
7+阅读 · 2020年6月29日
Top
微信扫码咨询专知VIP会员