神经网络因其在各种应用中的出色表现而受到了广泛的关注。两个方面特别引人注目:一方面,神经网络似乎比传统方法具有更优越的逼近能力。另一方面,尽管训练任务是一个高度非凸的优化问题,神经网络仍然可以成功地通过基于梯度的算法进行训练。本文推进了这两种现象背后的理论。在逼近的方面,我们开发了一个框架,证明神经网络可以打破所谓的维度诅咒,在不同的高维逼近问题中,涉及的神经网络的复杂性最多以维度的多项式增长。我们的方法基于目录网络的概念,它是前馈神经网络的一种推广,在其中非线性激活函数可以在各层之间变化,只要它们是从预定义的函数目录中选择的。因此,目录网络构成了连续函数的丰富家族。我们证明,在目录的适当条件下,这些目录网络可以有效地用整流线性单元(ReLU)类型的网络进行逼近,并提供了给定逼近精度所需参数数量的精确估计。作为一般结果的特例,我们得到了可以在没有维度诅咒的情况下用ReLU网络逼近的不同类别的函数。在优化的方面,我们通过研究损失表面,探讨了神经网络和基于梯度的训练算法之间的相互作用。一方面,我们发现由于网络结构和算法初始化之间不幸的相互作用,成功的学习受到了阻碍。更准确地说,我们展示了,如果ReLU网络的深度远大于其宽度,且随机初始化的数量不足够快速增加到无穷大,那么随机梯度下降法将无法收敛。另一方面,我们通过进行景观分析和应用动态系统理论,建立了积极的结果。这些积极的结果处理了具有一个隐藏层和ReLU、漏ReLU或二次激活的神经网络的真实损失的景观。在所有三种情况下,我们在目标函数是仿射和一维的情况下,提供了关键点的完全分类。接下来,我们证明了动态系统结果的新变体,一个中心稳定流形定理,其中我们放宽了通常施加的一些规律性要求。我们验证了具有一个隐藏层的ReLU网络适应这个新框架。在我们的关键点分类的基础上,我们推断出梯度下降避开了大部分鞍点。我们进一步证明,如果初始化足够好,就能收敛到全局最小值,这通过限制损失的明确阈值来表达。

成为VIP会员查看完整内容
34

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【普林斯顿博士论文】神经符号机器学习推理,133页pdf
专知会员服务
47+阅读 · 2023年2月1日
【普林斯顿】机器学习数学视角,63页ppt
专知会员服务
87+阅读 · 2020年11月6日
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
50+阅读 · 2020年2月19日
神经网络的损失函数为什么是非凸的?
极市平台
12+阅读 · 2019年9月26日
基础 | GRU神经网络
黑龙江大学自然语言处理实验室
27+阅读 · 2018年3月5日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年7月18日
Arxiv
0+阅读 · 2023年7月17日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员