近年来,深度学习取得了显著成功,但训练神经网络通常涉及一定的猜测和超参数调优。优化方法的一个关键方面是“隐性偏差”,即优化设置中的细微变化(在收敛时不影响小训练损失)可能显著改变模型收敛的解,从而影响测试性能。本论文提供了一系列数学结果,系统地刻画了不同训练方式中的这种隐性偏差。 本论文的第一部分探讨了梯度下降,即使没有显式正则化,也可能收敛到最大化边界的解。先前的研究已经为同类神经网络的边界一阶最优性提供了理论依据,但由于其非凸性,边界的全局最优性并无保障。本论文在数据具有简单结构时提供了深入的理论分析:对于线性可分的数据,我们展示了关于是否可以达到边界全局最优性的正反结论。此外,我们展示了如何利用基于边界的视角来解释神经网络训练中的一些有趣的泛化现象,无论是否存在显式正则化,包括简约偏差(simplicity bias)和顿悟现象(grokking phenomena)。

论文的第二部分提出了两个结果,揭示了有限学习率引发的隐性偏差。许多现有分析,包括第一部分中的基于边界的分析,描述了即使在学习率无限小的情况下也成立的隐性偏差。然而,实践中通常使用有限学习率,并且观察到它有助于泛化。我们分析了有限学习率下的全批次梯度下降(GD),结合归一化层和权重衰减等关键训练组件,如何产生向平坦极小值的偏差,而平坦极小值与更好的泛化正相关。此外,我们研究了随机优化中的隐性偏差,并通过随机微分方程(SDE)为自适应梯度方法(如 Adam 和 RMSprop)推导了严谨的动态近似,以捕捉有限学习率的影响。在此基础上,我们还推导出平方根缩放规则,作为在更改批次大小时调整自适应梯度方法的优化超参数的实用指南。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】从未整理数据中的鲁棒学习,220页pdf
专知会员服务
52+阅读 · 2023年11月10日
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
56+阅读 · 2022年9月7日
【2022新书】深度学习归一化技术,117页pdf
专知
22+阅读 · 2022年11月25日
【硬核书】树与网络上的概率,716页pdf
专知
23+阅读 · 2021年12月8日
【干货书】计算机科学离散数学,627页pdf
专知
60+阅读 · 2020年8月31日
深度多模态表示学习综述论文,22页pdf
专知
30+阅读 · 2020年6月21日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
149+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
380+阅读 · 2023年3月31日
Arxiv
64+阅读 · 2023年3月26日
Arxiv
133+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员