近年来,深度学习取得了显著成功,但训练神经网络通常涉及一定的猜测和超参数调优。优化方法的一个关键方面是“隐性偏差”,即优化设置中的细微变化(在收敛时不影响小训练损失)可能显著改变模型收敛的解,从而影响测试性能。本论文提供了一系列数学结果,系统地刻画了不同训练方式中的这种隐性偏差。 本论文的第一部分探讨了梯度下降,即使没有显式正则化,也可能收敛到最大化边界的解。先前的研究已经为同类神经网络的边界一阶最优性提供了理论依据,但由于其非凸性,边界的全局最优性并无保障。本论文在数据具有简单结构时提供了深入的理论分析:对于线性可分的数据,我们展示了关于是否可以达到边界全局最优性的正反结论。此外,我们展示了如何利用基于边界的视角来解释神经网络训练中的一些有趣的泛化现象,无论是否存在显式正则化,包括简约偏差(simplicity bias)和顿悟现象(grokking phenomena)。
论文的第二部分提出了两个结果,揭示了有限学习率引发的隐性偏差。许多现有分析,包括第一部分中的基于边界的分析,描述了即使在学习率无限小的情况下也成立的隐性偏差。然而,实践中通常使用有限学习率,并且观察到它有助于泛化。我们分析了有限学习率下的全批次梯度下降(GD),结合归一化层和权重衰减等关键训练组件,如何产生向平坦极小值的偏差,而平坦极小值与更好的泛化正相关。此外,我们研究了随机优化中的隐性偏差,并通过随机微分方程(SDE)为自适应梯度方法(如 Adam 和 RMSprop)推导了严谨的动态近似,以捕捉有限学习率的影响。在此基础上,我们还推导出平方根缩放规则,作为在更改批次大小时调整自适应梯度方法的优化超参数的实用指南。