Deep neural networks have successfully been trained in various application areas with stochastic gradient descent. However, there exists no rigorous mathematical explanation why this works so well. The training of neural networks with stochastic gradient descent has four different discretization parameters: (i) the network architecture; (ii) the amount of training data; (iii) the number of gradient steps; and (iv) the number of randomly initialized gradient trajectories. While it can be shown that the approximation error converges to zero if all four parameters are sent to infinity in the right order, we demonstrate in this paper that stochastic gradient descent fails to converge for ReLU networks if their depth is much larger than their width and the number of random initializations does not increase to infinity fast enough.


翻译:深神经网络在具有随机梯度梯度下降的各种应用领域都成功地接受了培训,然而,没有严格的数学解释为什么这一方法如此成功。对具有随机梯度梯度下降的神经网络的培训有四个不同的分化参数:(一) 网络结构;(二) 培训数据的数量;(三) 梯度步骤的数量;(四) 随机初始化梯度轨迹的数量。虽然可以证明,如果所有四个参数都按照正确的顺序被送至无限度,近似误差会达到零,但我们在本文中表明,如果ReLU网络的深度远大于其宽度,随机初始化的数量不会增加至不精确度足够快,则神经梯度梯度下降无法为RELU网络聚合。

0
下载
关闭预览

相关内容

随机梯度下降,按照数据生成分布抽取m个样本,通过计算他们梯度的平均值来更新梯度。
专知会员服务
50+阅读 · 2020年12月14日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
专知会员服务
61+阅读 · 2020年3月4日
《动手学深度学习》(Dive into Deep Learning)PyTorch实现
专知会员服务
117+阅读 · 2019年12月31日
【新书】Python编程基础,669页pdf
专知会员服务
187+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
车辆目标检测
数据挖掘入门与实战
30+阅读 · 2018年3月30日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年3月24日
Arxiv
0+阅读 · 2021年3月23日
Optimization for deep learning: theory and algorithms
Arxiv
103+阅读 · 2019年12月19日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
车辆目标检测
数据挖掘入门与实战
30+阅读 · 2018年3月30日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员