NeurIPS 2020线上分享 | 耶鲁博士庄钧堂：兼顾收敛、泛化和稳定性的新型优化器AdaBelief

2020 年 11 月 17 日 机器之心

现代神经网络通常利用一阶梯度方法进行训练，这类方法又可以划分为两个不同的方向，分别是加速随机梯度下降（SGD）和自适应学习率方法（如 Adagrad 和 Adam）。两者的运行原理不同，SGD 方法学习使用所有参数的全局学习率，而自适应方法计算每个参数的学习率。运行原理的不同也导致两者在效果方面出现差异。

具体而言，自适应方法通过在早期训练阶段收敛较快，但遗憾的是泛化性能太差。所以，如何结合 SGD 和自适应方法的各自优势成为重要的研究课题。例如，Salesforce 研究院高级研究科学家 Nitish Shirish Keskar 等通过从 Adam 切换到 SGD 来提升泛化性能，以及谷歌研究院学者 Liangchen Luo 等利用学习率动态边界的自适应梯度方法。此外，研究人员也提出了各种针对 Adam 的改进方法，但结果不尽如人意。虽然准确率提升了，但在 ImageNet 等大规模数据集上的泛化性能依然低于 SGD。并且，与 Adam 相比，很多新提出的优化器在训练 GAN 时不稳定。

针对这些问题，在耶鲁大学等科研机构这篇被 NeurIPS 2020 接收的论文《AdaBelief optimizer: adapting stepsizes by the belief in observed gradients》中，研究者提出了首个同时实现如自适应方法一样快速收敛、如 SGD 一样良好泛化以及如 GAN 一样训练稳定的优化器 AdaBelief。研究者表示，该优化器可以用于训练所有对参数梯度进行数值估计的模型，进而促进深度学习模型的发展和应用。

机器之心最新一期 NeurIPS 线上分享邀请到了论文一作、耶鲁大学生物医学工程系博士生庄钧堂，为大家详细解读此前沿研究。

分享主题： 优化器 AdaBelief：根据当前梯度方向上的「belief」来调整步长

分享嘉宾： 庄钧堂，耶鲁大学生物医学工程系博士生，其导师是 James S. Duncan。研究方向为医学图像处理和机器学习，目前关注优化算法和微分方程的应用。

分享概要： 最常用的深度学习优化器大致可分为自适应方法（如 Adam）和加速方案（如带有动量的随机梯度下降（SGD））。与 SGD 相比，许多模型（如卷积神经网络）采用自适应方法通常收敛速度更快，但泛化效果却较差。对于生成对抗网络（GAN）这类的复杂情况，通常默认使用自适应方法，因为其具有稳定性。

本文提出新的优化器 AdaBelief，根据当前梯度方向上的「belief」来调整步长，将嘈杂梯度的指数移动平均（EMA）当作下一步的梯度预测。如果观察到的梯度大大偏离了预测，那么就不信任当前的观察，采取一个较小的步长；如果观察到的梯度接近预测值，那么就相信当前的观察，并采取一个较大的步长。本文通过实验验证了 AdaBelief 同时满足 3 个优点：自适应方法的快速收敛、良好泛化性、训练稳定性。

直播时间： 北京时间 11 月 19 日 20:00-21:00

论文链接：https://arxiv.org/abs/2010.07468
代码链接：https://github.com/juntang-zhuang/Adabelief-Optimizer

加入机动组，一起看直播

「机动组」是机器之心发起的人工智能技术社区，将持续提供技术公开课、论文分享、热门主题解读等线上线下活动，并在社群中提供每日精选论文与教程、智能技术研究周报，同时「机动组」也将不定期组织人才服务、产业技术对接等活动，欢迎所有 AI 领域技术从业者加入。添加机器之心小助手（syncedai5），备注「2020」，加入本次直播群。