We investigate the convergence and convergence rate of stochastic training algorithms for Neural Networks (NNs) that have been inspired by Dropout (Hinton et al., 2012). With the goal of avoiding overfitting during training of NNs, dropout algorithms consist in practice of multiplying the weight matrices of a NN componentwise by independently drawn random matrices with $\{0, 1 \}$-valued entries during each iteration of Stochastic Gradient Descent (SGD). This paper presents a probability theoretical proof that for fully-connected NNs with differentiable, polynomially bounded activation functions, if we project the weights onto a compact set when using a dropout algorithm, then the weights of the NN converge to a unique stationary point of a projected system of Ordinary Differential Equations (ODEs). After this general convergence guarantee, we go on to investigate the convergence rate of dropout. Firstly, we obtain generic sample complexity bounds for finding $\epsilon$-stationary points of smooth nonconvex functions using SGD with dropout that explicitly depend on the dropout probability. Secondly, we obtain an upper bound on the rate of convergence of Gradient Descent (GD) on the limiting ODEs of dropout algorithms for NNs with the shape of arborescences of arbitrary depth and with linear activation functions. The latter bound shows that for an algorithm such as Dropout or Dropconnect (Wan et al., 2013), the convergence rate can be impaired exponentially by the depth of the arborescence. In contrast, we experimentally observe no such dependence for wide NNs with just a few dropout layers. We also provide a heuristic argument for this observation. Our results suggest that there is a change of scale of the effect of the dropout probability in the convergence rate that depends on the relative size of the width of the NN compared to its depth.


翻译:本文研究了受Hinton等人(2012)启发的用于神经网络(NNs)的随机训练算法的收敛性和收敛速度。为了在NNs的训练过程中避免过拟合,dropout算法实际上通常指的是在Stochastic Gradient Descent(SGD)的每次迭代中将NN组件的权重矩阵与独立绘制的随机矩阵逐元素相乘。本文呈现了一个概率论证明:对于具有可微分,多项式上界激活函数的全连接NNs,如果在使用drop算法时将权重投影到紧致集上,则NN的权重会收敛于投影常微分方程系统的唯一稳态点。在这个通用的收敛保证之后,我们继续研究dropout的收敛速率。首先,我们使用dropout获得了找到光滑非凸函数的$\epsilon$-稳定点的通用样本复杂度上限,该上限显式依赖于dropout概率。其次,我们获得了在具有任意深度的树形状且具有线性激活函数的神经网络的极限ODEs上运行梯度下降(GD)的收敛速率的上限。后一上限表明,对于像Dropout或Dropconnect(Wan等人,2013)这样的算法,收敛速率可以由树形深度呈指数快速下降。相比之下,我们实验观察到,对于具有只有几个dropout层的宽NNs,不存在这样的依赖关系。我们还提供了一个启发性的论据来解释这一观察结果。本文的结果表明,dropout概率的影响尺度的变化与NN的宽度相对于其深度的大小有关。

0
下载
关闭预览

相关内容

【ICML2022】深度神经网络中的特征学习与信号传播
专知会员服务
24+阅读 · 2022年6月2日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
30+阅读 · 2020年4月15日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
基础 | GRU神经网络
黑龙江大学自然语言处理实验室
27+阅读 · 2018年3月5日
CNN 反向传播算法推导
统计学习与视觉计算组
28+阅读 · 2017年12月29日
神经网络bp算法推导
统计学习与视觉计算组
11+阅读 · 2017年11月17日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月12日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
19+阅读 · 2018年6月27日
VIP会员
相关VIP内容
【ICML2022】深度神经网络中的特征学习与信号传播
专知会员服务
24+阅读 · 2022年6月2日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
30+阅读 · 2020年4月15日
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
基础 | GRU神经网络
黑龙江大学自然语言处理实验室
27+阅读 · 2018年3月5日
CNN 反向传播算法推导
统计学习与视觉计算组
28+阅读 · 2017年12月29日
神经网络bp算法推导
统计学习与视觉计算组
11+阅读 · 2017年11月17日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员