深度学习在各种具有挑战性的任务中取得了显著的成功,如从自然语言生成图像或与人进行长时间的对话。这种实践中的成功源于成功地在大型数据集上训练大型神经网络的能力。本论文研究最简单结构的理论基础,即深度前馈神经网络,特别强调宽度的作用。我们首先关注有限宽度神经网络的简单模型,以研究泛化,这是机器学习和统计学习理论中的中心问题。我们的研究深入探讨了高斯随机特征模型的预期泛化误差,包括特征数量、数据点数量、它所近似的内核和输入分布。
我们的公式与数值实验非常接近。接下来,我们探讨另一个有限宽度神经网络的简化,以研究它们的训练动态。我们假设一个线性激活函数,导致线性预测器。然而,训练动态依然非常重要。特别地,损失函数是非凸的:正交对称性导致在各种损失水平下的鞍点流形。然而,这些鞍点展现出一个独特的布局,其中一个鞍的逃逸方向引导轨迹向后续的鞍。通过粘合鞍点之间的局部轨迹,我们描述了一个所谓的鞍对鞍动态,它被证明在非常小的初始化中启动。
为了研究有限宽度的神经网络而不制定简单模型,我们将注意力转向网络参数化的结构和隐藏神经元之间的排列对称性。我们确定了一种神经元分裂技术,它将网络的临界点映射到更宽网络的由对称性引起的临界点的流形上。通过考虑所有可能的神经元划分及其排列,我们建立了临界流形数量的精确缩放规律。对于大的m,缩放规律的行为为 e c(α)mm,其中m是更宽网络的宽度,α是收缩因子,即独特神经元数量与m的比率。值得注意的是,c(α)的最大值在α ∗ = 1/2log(2)时达到,因此它是引发最多的对称性诱导的临界流形的收缩因子。接下来,我们为超参数化的网络给出了这种缩放规律的应用。关键问题是:我们能否给出一个经验法则,说明需要多少超参数化才能确保可靠地收敛到零损失解?我们的方法基于研究在超参数化神经网络中零损失解的几何和拓扑。我们证明,所有零损失解流形在神经元分裂、零神经元添加和对于完全支持的输入分布的排列下都是相同的。此外,我们给出了零损失流形的缩放规律。两个缩放规律之间的比率给出了景观复杂性的一个度量,该度量随超参数化而衰减。
我们观察到,复杂性迅速下降,直到超参数化因子达到大约2log(2),之后复杂性变得小于一。总的来说,我们发现至少使用2到4倍的超参数化是值得推荐的,以确保可靠地收敛到一个零损失解。虽然缩放规律适用于任意设置,但需要更详细的分析来研究泛化。我们将注意力转向学习从标准高斯输入分布和具有更多神经元的单位正交标准网络的神经网络。我们通过考虑输入分布导致的对称性来重新表述权重空间最小化问题,将其视为一个受约束的优化问题。作为一个非平凡的应用,我们为ReLU激活的单神经元网络提供了最优解及其泛化误差的封闭形式表达。我们的重新表述适用于任意宽度的网络,可能是找到欠参数化网络的泛化误差的关键。
深度学习在从大量数据中学习方面取得了前所未有的成功(LeCun, Bengio, 和 G. Hinton, 2015; Devlin et al., 2018; Brown et al., 2020; Dosovitskiy et al., 2020; Brown et al., 2020)。这种成功源于日益便宜的计算能力、拥有数十亿参数的架构能够利用并行化并从大型数据集中学习的结合。今天的深度学习赋予了我们日常生活中使用的技术,比如我们智能手机中的图像识别和与聊天机器人按需生成文本的能力。特别是最近的生成深度学习模型,如DALL-E和ChatGPT,在生成自然语言的真实图像和与人进行长时间对话的困难任务中表现得出奇地好。深度学习的当前做法很简单:扩大数据集并扩大模型,以便从大型数据集中学习(J. Kaplan et al., 2020; Bahri et al., 2021)。在实践中,扩展通常效果很好。然而,这是非常昂贵的,产生的模型也非常复杂。模型的复杂性使得难以理解它们的内部工作原理,并确定其失败模式。
通过理论框架来解释深度学习的成功在这个初级阶段似乎还遥不可及。当前的一般问题和方法可以列为以下几点,这些问题和方法都在本论文的范围内:
• 可处理的模型。相关模型可以帮助我们理解神经网络是如何被训练的,以及如何对未见样本进行预测。对最简单的模型可以完全解决。特别是对于简单模型如线性回归,由于损失是凸的,我们有训练的封闭形式解。然后关心的问题是泛化:特别是,它作为参数和训练样本的函数是如何缩放的?我们在第2章中针对高斯随机特征模型研究了这个问题,并给出了部分答案。如果损失不是凸的,那么训练就是需要解决的紧迫问题。我们能找到最优解的集合吗?我们可以根据网络初始化研究训练制度吗?我们在第3章中针对深度线性网络研究了这些问题,并给出了部分答案。
• 中大型网络的属性。一些神经网络族的一般属性可以被精确地研究。一个例子是从深度神经网络的排列对称性派生出的损失景观的新型缩放定律。这是本论文第4章和第5章的主题。这种方法很强,因为它广泛适用,因为排列对称性是神经网络的固有属性。这种全局属性对训练动态和泛化的影响尚待发现。
•** 玩具模型**。微小规模的神经网络可以作为它们的大型版本的玩具模型。我们部分地回答了在少量神经元的神经网络背景下找到非凸问题的封闭形式解的问题,在第6章中进行了探讨。这种方法是受到缩放研究的启发,这些研究表明,随着神经网络变得更大,它们逐渐改善。
为什么需要神经网络理论?
要理解理论在深度学习中的作用,与传统的科学领域进行比较是很有启示性的。一般来说,物理学寻求解释自然的规律,而生物学寻找支持生命体运作机制的答案。理论在理解事物本质的科学发展中起到了核心作用。与物理学和生物学中的理论角色相类似,深度学习的理论可能会带来重要的见解,但仍然需要发展。此外,理论在实际开发深度学习模型中也可以起到重要作用,使它们更加高效。例如,深度学习的理论可以帮助做出重要的设计选择,如数据(子)选择和超参数选择,这将减轻在高维空间中进行网格搜索的计算负担。从这个意义上说,由于它在不久的将来可能产生的潜在影响,深度学习的理论现在是一个激动人心的时期。对于有实验倾向的理论家来说,与经典的科学领域相比,深度学习也可以是一个令人愉快的游乐场。生物实验通常需要很长时间,可能被污染并存在缺陷,而由于伦理问题,进行大规模研究是困难的。例如,在宇宙学和粒子物理学中,模拟一个物理过程需要大量的时间和计算能力。相比之下,在深度学习中,很容易在计算机上运行一个简单的实验,理想情况下是在GPU上,这样的资源更为广泛地可用。规模研究对于回答以下问题是很重要的:在个人电脑上训练的简单模型是否在某种程度上代表了实际应用中的深度学习?
在深度学习中有许多具有挑战性的理论问题,这些问题需要各种各样的工具,其中一些已经得到了成功的解答,还有更多的问题亟待解决。事实上,由于在深度学习的背景下发现的现象,我们对更经典的模型的理解已经得到了显著的提高。例如,线性回归的经典问题展示了所谓的双下降曲线,该曲线可以通过随机矩阵理论进行分析(Hastie等,2022)。更一般地说,Rahimi和Recht(2008a)的随机特征模型提供了一系列有趣的问题,这些问题可以通过高维概率或统计物理工具来解决。这是相关的,因为一个除了最后一层外权重都被冻结的神经网络对应于随机特征模型。此外,在特定的训练模式下,神经网络在无限宽度极限下收敛于所谓的神经切线核预测器(Jacot、Gabriel和Hongler,2018b)。神经网络与核方法之间的这种对应关系激发了对核方法研究的重新关注(Belkin、Ma和Mandal,2018;Jacot、¸Sim¸sek等,2020d)。在另一个极端,神经网络的低维问题可能需要使用来自几何、拓扑和动力系统的工具进行精确且特定于问题的分析。