自适应优化器(Adaptive Optimizer)是一类基于损失函数梯度(Gradient of Loss Function)的优化器,可根据梯度的历史信息,自适应地调节优化步长的特点。AdaGrad、RMSProp 和 Adam 这三个算法是自适应优化器的代表,因为他们能够加速神经网络的训练所以在深度学习领域受到了广泛的关注。与这三个算法在训练集上取得的良好表现相比,它们在测试集上的表现(泛化性质,Generalization Error)有时却不尽人意,并且如何从理论上理解这一现象仍旧是一个丞待解决的问题。本篇论文从隐式正则(Implicit Bias)的角度,解决了损失函数是指数尾部分布情形下的问题。

隐式正则,是指优化算法面对神经网络的多个最优点时,会带有“偏好”地选择收敛点,从而影响神经网络的泛化能力。更具体来说,本文证明了对于齐次的神经网络(包含使用ReLU/多项式激活函数的全连接/卷积神经网络)和 AdaGrad 选取的最优点会严重依赖于参数的初始化,而 RMSProp 以及 Adam 则会收敛到二范数意义 Max Margin Problem 的最优解。

在深度学习的泛化理论中,Margin(模型在数据集上最小的正确标签得分与其他标签中最大得分之差)可以用来被估计泛化误差(Margin 越大,泛化误差越小),所以研究员们证明了 RMSProp 和 Adam 收敛,会收敛到 Margin 意义下泛化误差最大的解,而 AdaGrad 所收敛到的解的泛化性质则会劣于 RMSProp 和 Adam。需要注意的是,对于 Adam 优化器,研究员们只分析了不含动量项(Momentum)的情况,这是由于动量项的加入会使得每一步的迭代不再能保证梯度函数是下降的,从而不能用现有的分析方法解决。对一般的 Adam 优化器进行分析将是一个有趣的课题。

值得一提的是,在技术层面,研究员们给出了分析自适应优化器算法的隐式正则的通用框架——自适应梯度流优化器(Adaptive Gradient Flow),同时给出了该优化器的收敛方向,并提供了如何将 AdaGrad、RMSProp 和 Adam 这类优化器等价为自适应流优化器的方法。该分析通过简单的修正也可以涵盖其他的自适应优化器。

最后,研究员们在 MNIST 数据集上使用卷积神经网络对实验结果进行了验证,实验表明,RMSProp 和 Adam 的 Margin 和泛化性质和 SGD 接近,均优于 AdaGrad,从而支持了文章的理论结果。

成为VIP会员查看完整内容
11

相关内容

专知会员服务
23+阅读 · 2021年9月22日
专知会员服务
19+阅读 · 2021年9月14日
专知会员服务
32+阅读 · 2021年7月27日
专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
16+阅读 · 2021年7月13日
专知会员服务
15+阅读 · 2021年3月4日
专知会员服务
19+阅读 · 2020年12月9日
【Cell 2020】神经网络中的持续学习
专知会员服务
59+阅读 · 2020年11月7日
【基于元学习的推荐系统】5篇相关论文
专知
10+阅读 · 2020年1月20日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
BP神经网络
Datartisan数据工匠
5+阅读 · 2018年8月9日
基础 | 深度学习中的优化算法
黑龙江大学自然语言处理实验室
5+阅读 · 2018年5月11日
深度学习超参数简单理解
计算机视觉战队
4+阅读 · 2017年11月28日
最近流行的激活函数
计算机视觉战队
6+阅读 · 2017年11月27日
Arxiv
0+阅读 · 2021年9月22日
Arxiv
7+阅读 · 2020年6月29日
Arxiv
5+阅读 · 2018年1月30日
Arxiv
3+阅读 · 2017年7月6日
VIP会员
相关VIP内容
专知会员服务
23+阅读 · 2021年9月22日
专知会员服务
19+阅读 · 2021年9月14日
专知会员服务
32+阅读 · 2021年7月27日
专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
16+阅读 · 2021年7月13日
专知会员服务
15+阅读 · 2021年3月4日
专知会员服务
19+阅读 · 2020年12月9日
【Cell 2020】神经网络中的持续学习
专知会员服务
59+阅读 · 2020年11月7日
相关资讯
【基于元学习的推荐系统】5篇相关论文
专知
10+阅读 · 2020年1月20日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
BP神经网络
Datartisan数据工匠
5+阅读 · 2018年8月9日
基础 | 深度学习中的优化算法
黑龙江大学自然语言处理实验室
5+阅读 · 2018年5月11日
深度学习超参数简单理解
计算机视觉战队
4+阅读 · 2017年11月28日
最近流行的激活函数
计算机视觉战队
6+阅读 · 2017年11月27日
微信扫码咨询专知VIP会员