自适应优化器(Adaptive Optimizer)是一类基于损失函数梯度(Gradient of Loss Function)的优化器,可根据梯度的历史信息,自适应地调节优化步长的特点。AdaGrad、RMSProp 和 Adam 这三个算法是自适应优化器的代表,因为他们能够加速神经网络的训练所以在深度学习领域受到了广泛的关注。与这三个算法在训练集上取得的良好表现相比,它们在测试集上的表现(泛化性质,Generalization Error)有时却不尽人意,并且如何从理论上理解这一现象仍旧是一个丞待解决的问题。本篇论文从隐式正则(Implicit Bias)的角度,解决了损失函数是指数尾部分布情形下的问题。
隐式正则,是指优化算法面对神经网络的多个最优点时,会带有“偏好”地选择收敛点,从而影响神经网络的泛化能力。更具体来说,本文证明了对于齐次的神经网络(包含使用ReLU/多项式激活函数的全连接/卷积神经网络)和 AdaGrad 选取的最优点会严重依赖于参数的初始化,而 RMSProp 以及 Adam 则会收敛到二范数意义 Max Margin Problem 的最优解。
在深度学习的泛化理论中,Margin(模型在数据集上最小的正确标签得分与其他标签中最大得分之差)可以用来被估计泛化误差(Margin 越大,泛化误差越小),所以研究员们证明了 RMSProp 和 Adam 收敛,会收敛到 Margin 意义下泛化误差最大的解,而 AdaGrad 所收敛到的解的泛化性质则会劣于 RMSProp 和 Adam。需要注意的是,对于 Adam 优化器,研究员们只分析了不含动量项(Momentum)的情况,这是由于动量项的加入会使得每一步的迭代不再能保证梯度函数是下降的,从而不能用现有的分析方法解决。对一般的 Adam 优化器进行分析将是一个有趣的课题。
值得一提的是,在技术层面,研究员们给出了分析自适应优化器算法的隐式正则的通用框架——自适应梯度流优化器(Adaptive Gradient Flow),同时给出了该优化器的收敛方向,并提供了如何将 AdaGrad、RMSProp 和 Adam 这类优化器等价为自适应流优化器的方法。该分析通过简单的修正也可以涵盖其他的自适应优化器。
最后,研究员们在 MNIST 数据集上使用卷积神经网络对实验结果进行了验证,实验表明,RMSProp 和 Adam 的 Margin 和泛化性质和 SGD 接近,均优于 AdaGrad,从而支持了文章的理论结果。