【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

在 NeurIPS 2020 的一篇 Spotlight 论文中，来自耶鲁大学、伊利诺伊大学香槟分校等机构的研究者提出了一种名为「AdaBelief」的新型优化器，可以同时满足 3 个优点：自适应方法的快速收敛、SGD 的良好泛化性、训练稳定性。论文代码也已经放出。

论文链接：https://arxiv.org/pdf/2010.07468.pdf 论文页面：https://juntang-zhuang.github.io/adabelief/ 代码链接：https://github.com/juntang-zhuang/Adabelief-Optimizer

AdaBelief 根据当前梯度方向上的「belief」来调整步长，将嘈杂梯度的指数移动平均（EMA）当作下一步的梯度预测。如果观察到的梯度大大偏离了预测，那么就不信任当前的观察，采取一个较小的步长；如果观察到的梯度接近预测值，那么就相信当前的观察，并采取一个较大的步长。

研究者用实验验证了 AdaBelief 的效果。在图像分类和语言建模方面， AdaBelief 收敛迅速，准确率高，性能优于其他方法。具体来说，在 ImageNet 上， AdaBelief 的准确率可与 SGD 媲美。

此外，在 Cifar10 上训练 GAN 期间，与经过调整的 Adam 优化器相比， AdaBelief 表现出了高度稳定性并提高了生成样本的质量。

成为VIP会员查看完整内容

相关内容

NeurIPS 2020

关注 10

ICLR 2021 评审出炉！来看看得分最高的50篇论文是什么！

专知会员服务

41+阅读 · 2020年11月13日

【NeurIPS 2020】优化算法升迁深化学习效率

专知会员服务

9+阅读 · 2020年11月10日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

【NeurIPS 2020】学习神经网络中的不变性

专知会员服务

29+阅读 · 2020年10月24日

【NeurIPS 2020】大规模分布式鲁棒优化方法

专知会员服务

26+阅读 · 2020年10月13日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知会员服务

42+阅读 · 2020年7月5日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【论文】自训练噪声student模型提高ImageNet分类准确率（Self-training with Noisy Student improves ImageNet classification），谷歌研究科学家Quoc V. Le等

专知会员服务

24+阅读 · 2019年11月20日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

超越MnasNet、Proxyless：小米开源全新神经架构搜索算法FairNAS

机器之心

4+阅读 · 2019年7月5日

【学界】大幅减少训练迭代次数，提高泛化能力：IBM提出「新版Dropout」

GAN生成式对抗网络

7+阅读 · 2019年6月7日

大幅减少训练迭代次数，提高泛化能力：IBM提出「新版Dropout」

机器之心

5+阅读 · 2019年6月7日

你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

新智元

9+阅读 · 2019年3月20日

FAIR&MIT提出知识蒸馏新方法：数据集蒸馏

机器之心

7+阅读 · 2019年2月7日

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

中国人工智能学会

6+阅读 · 2018年7月4日

论文Express | 谷歌大脑：基于元学习的无监督学习更新规则

大数据文摘

5+阅读 · 2018年5月3日

教程 | 如何估算深度神经网络的最优学习率

机器之心

3+阅读 · 2017年11月17日

生成对抗网络综述：从架构到训练技巧，看这篇论文就够了

机器之心

8+阅读 · 2017年10月22日

【像训练CNN一样快速训练RNN】全新RNN实现，比优化后的LSTM快10倍

新智元

6+阅读 · 2017年9月12日

Impact of covariance mismatched training samples on constant false alarm rate detectors

Arxiv

0+阅读 · 2020年12月2日

SS-IL: Separated Softmax for Incremental Learning

Arxiv

0+阅读 · 2020年12月1日

Solvable Model for Inheriting the Regularization through Knowledge Distillation

Arxiv

0+阅读 · 2020年12月1日

AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients

Arxiv

0+阅读 · 2020年11月28日

Self-training with Noisy Student improves ImageNet classification

Arxiv

15+阅读 · 2019年11月11日

Teacher-Student Training for Robust Tacotron-based TTS

Arxiv

5+阅读 · 2019年11月7日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

A Meta-Learning Framework for Generalized Zero-Shot Learning

Arxiv

3+阅读 · 2019年9月10日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

Adversarial Meta-Learning

Arxiv

7+阅读 · 2018年6月8日

VIP会员