NeurIPS 2020线上分享 | 耶鲁博士庄钧堂:兼顾收敛、泛化和稳定性的新型优化器AdaBelief

2020 年 11 月 17 日 机器之心
现代神经网络通常利用一阶梯度方法进行训练,这类方法又可以划分为两个不同的方向,分别是加速随机梯度下降(SGD)和自适应学习率方法(如 Adagrad 和 Adam)。两者的运行原理不同,SGD 方法学习使用所有参数的全局学习率,而自适应方法计算每个参数的学习率。运行原理的不同也导致两者在效果方面出现差异。

具体而言,自适应方法通过在早期训练阶段收敛较快,但遗憾的是泛化性能太差。所以,如何结合 SGD 和自适应方法的各自优势成为重要的研究课题。例如,Salesforce 研究院高级研究科学家 Nitish Shirish Keskar 等通过从 Adam 切换到 SGD 来提升泛化性能,以及谷歌研究院学者 Liangchen Luo 等利用学习率动态边界的自适应梯度方法。 此外,研究人员也提出了各种针对 Adam 的改进方法,但结果不尽如人意。 虽然准确率提升了,但在 ImageNet 等大规模数据集上的泛化性能依然低于 SGD。 并且,与 Adam 相比,很多新提出的优化器在训练 GAN 时不稳定。

针对这些问题,在耶鲁大学等科研机构这篇被 NeurIPS 2020 接收的论文《AdaBelief optimizer: adapting stepsizes by the belief in observed gradients》中,研究者提出了首个同时实现如自适应方法一样快速收敛、如 SGD 一样良好泛化以及如 GAN 一样训练稳定的优化器 AdaBelief。研究者表示,该优化器可以用于训练所有对参数梯度进行数值估计的模型,进而促进深度学习模型的发展和应用。

机器之心最新一期 NeurIPS 线上分享邀请到了论文一作、耶鲁大学生物医学工程系博士生庄钧堂,为大家详细解读此前沿研究。


分享主题: 优化器 AdaBelief:根据当前梯度方向上的「belief」来调整步长

分享嘉宾: 庄钧堂,耶鲁大学生物医学工程系博士生,其导师是 James S. Duncan。研究方向为医学图像处理和机器学习,目前关注优化算法和微分方程的应用。

分享概要: 最常用的深度学习优化器大致可分为自适应方法(如 Adam)和加速方案(如带有动量的随机梯度下降(SGD))。与 SGD 相比,许多模型(如卷积神经网络)采用自适应方法通常收敛速度更快,但泛化效果却较差。对于生成对抗网络(GAN)这类的复杂情况,通常默认使用自适应方法,因为其具有稳定性。

本文提出新的优化器 AdaBelief,根据当前梯度方向上的「belief」来调整步长,将嘈杂梯度的指数移动平均(EMA)当作下一步的梯度预测。如果观察到的梯度大大偏离了预测,那么就不信任当前的观察,采取一个较小的步长;如果观察到的梯度接近预测值,那么就相信当前的观察,并采取一个较大的步长。本文通过实验验证了 AdaBelief 同时满足 3 个优点:自适应方法的快速收敛、良好泛化性、训练稳定性。

直播时间: 北京时间 11 月 19 日 20:00-21:00

  • 论文链接:https://arxiv.org/abs/2010.07468

  • 代码链接:https://github.com/juntang-zhuang/Adabelief-Optimizer


加入机动组,一起看直播

「机动组」是机器之心发起的人工智能技术社区,将持续提供技术公开课、论文分享、热门主题解读等线上线下活动,并在社群中提供每日精选论文与教程、智能技术研究周报,同时「机动组」也将不定期组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。添加机器之心小助手(syncedai5),备注「2020」,加入本次直播群。


ps:如果小助手无法添加,请将「微信 ID」发送邮件到 dujiahao@jiqizhixin.com,我们将与你联系,邀你入群。
登录查看更多
0

相关内容

专知会员服务
20+阅读 · 2020年12月9日
【NeurIPS 2020】大规模分布式鲁棒优化方法
专知会员服务
26+阅读 · 2020年10月13日
【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
85+阅读 · 2020年6月9日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
26+阅读 · 2020年5月7日
CMU博士论文:可微优化机器学习建模
专知会员服务
60+阅读 · 2019年10月26日
7个实用的深度学习技巧
机器学习算法与Python学习
16+阅读 · 2019年3月6日
当前训练神经网络最快的方式:AdamW优化算法+超级收敛
中国人工智能学会
6+阅读 · 2018年7月4日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
Arxiv
0+阅读 · 2021年1月24日
Arxiv
26+阅读 · 2019年3月5日
Arxiv
7+阅读 · 2018年6月8日
VIP会员
相关论文
Arxiv
0+阅读 · 2021年1月24日
Arxiv
26+阅读 · 2019年3月5日
Arxiv
7+阅读 · 2018年6月8日
Top
微信扫码咨询专知VIP会员