【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

近年来，深度学习取得了显著成功，但训练神经网络通常涉及一定的猜测和超参数调优。优化方法的一个关键方面是“隐性偏差”，即优化设置中的细微变化（在收敛时不影响小训练损失）可能显著改变模型收敛的解，从而影响测试性能。本论文提供了一系列数学结果，系统地刻画了不同训练方式中的这种隐性偏差。本论文的第一部分探讨了梯度下降，即使没有显式正则化，也可能收敛到最大化边界的解。先前的研究已经为同类神经网络的边界一阶最优性提供了理论依据，但由于其非凸性，边界的全局最优性并无保障。本论文在数据具有简单结构时提供了深入的理论分析：对于线性可分的数据，我们展示了关于是否可以达到边界全局最优性的正反结论。此外，我们展示了如何利用基于边界的视角来解释神经网络训练中的一些有趣的泛化现象，无论是否存在显式正则化，包括简约偏差（simplicity bias）和顿悟现象（grokking phenomena）。

论文的第二部分提出了两个结果，揭示了有限学习率引发的隐性偏差。许多现有分析，包括第一部分中的基于边界的分析，描述了即使在学习率无限小的情况下也成立的隐性偏差。然而，实践中通常使用有限学习率，并且观察到它有助于泛化。我们分析了有限学习率下的全批次梯度下降（GD），结合归一化层和权重衰减等关键训练组件，如何产生向平坦极小值的偏差，而平坦极小值与更好的泛化正相关。此外，我们研究了随机优化中的隐性偏差，并通过随机微分方程（SDE）为自适应梯度方法（如 Adam 和 RMSprop）推导了严谨的动态近似，以捕捉有限学习率的影响。在此基础上，我们还推导出平方根缩放规则，作为在更改批次大小时调整自适应梯度方法的优化超参数的实用指南。

成为VIP会员查看完整内容

相关内容

博士论文

关注 100

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

27+阅读 · 7月31日

【NTU博士论文】视觉神经模型的资源高效学习，155页pdf

专知会员服务

23+阅读 · 5月18日

【NTU博士论文】自然语言处理的自回归生成，173页pdf

专知会员服务

24+阅读 · 2月18日

【MIT博士论文】从未整理数据中的鲁棒学习，220页pdf

专知会员服务

52+阅读 · 2023年11月10日