【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

神经网络因其在各种应用中的出色表现而受到了广泛的关注。两个方面特别引人注目：一方面，神经网络似乎比传统方法具有更优越的逼近能力。另一方面，尽管训练任务是一个高度非凸的优化问题，神经网络仍然可以成功地通过基于梯度的算法进行训练。本文推进了这两种现象背后的理论。在逼近的方面，我们开发了一个框架，证明神经网络可以打破所谓的维度诅咒，在不同的高维逼近问题中，涉及的神经网络的复杂性最多以维度的多项式增长。我们的方法基于目录网络的概念，它是前馈神经网络的一种推广，在其中非线性激活函数可以在各层之间变化，只要它们是从预定义的函数目录中选择的。因此，目录网络构成了连续函数的丰富家族。我们证明，在目录的适当条件下，这些目录网络可以有效地用整流线性单元（ReLU）类型的网络进行逼近，并提供了给定逼近精度所需参数数量的精确估计。作为一般结果的特例，我们得到了可以在没有维度诅咒的情况下用ReLU网络逼近的不同类别的函数。在优化的方面，我们通过研究损失表面，探讨了神经网络和基于梯度的训练算法之间的相互作用。一方面，我们发现由于网络结构和算法初始化之间不幸的相互作用，成功的学习受到了阻碍。更准确地说，我们展示了，如果ReLU网络的深度远大于其宽度，且随机初始化的数量不足够快速增加到无穷大，那么随机梯度下降法将无法收敛。另一方面，我们通过进行景观分析和应用动态系统理论，建立了积极的结果。这些积极的结果处理了具有一个隐藏层和ReLU、漏ReLU或二次激活的神经网络的真实损失的景观。在所有三种情况下，我们在目标函数是仿射和一维的情况下，提供了关键点的完全分类。接下来，我们证明了动态系统结果的新变体，一个中心稳定流形定理，其中我们放宽了通常施加的一些规律性要求。我们验证了具有一个隐藏层的ReLU网络适应这个新框架。在我们的关键点分类的基础上，我们推断出梯度下降避开了大部分鞍点。我们进一步证明，如果初始化足够好，就能收敛到全局最小值，这通过限制损失的明确阈值来表达。

成为VIP会员查看完整内容

相关内容

博士论文

关注 118

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【UCLA博士论文】神经网络捕获的信息:与记忆和泛化的联系，143页pdf

专知会员服务

41+阅读 · 2023年7月3日

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

专知会员服务

64+阅读 · 2023年5月29日

【普林斯顿大学博士论文】带约束和函数逼近的可证明强化学习，

专知会员服务

41+阅读 · 2023年2月25日

【普林斯顿博士论文】神经符号机器学习推理，133页pdf

专知会员服务

48+阅读 · 2023年2月1日