成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
今晚,NeurIPS 2020线上分享 :兼顾收敛、泛化和稳定性的新型优化器AdaBelief
2020 年 11 月 19 日
机器之心
现代神经网络通常利用一阶梯度方法进行训练,这类方法又可以划分为两个不同的方向,分别是加速随机梯度下降(SGD)和自适应学习率方法(如 Adagrad 和 Adam)。两者的运行原理不同,SGD 方法学习使用所有参数的全局学习率,而自适应方法计算每个参数的学习率。运行原理的不同也导致两者在效果方面出现差异。
具体而言,自适应方法通过在早期训练阶段收敛较快,但遗憾的是泛化性能太差。所以,如何结合 SGD 和自适应方法的各自优势成为重要的研究课题。例如,Salesforce 研究院高级研究科学家 Nitish Shirish Keskar 等通过从 Adam 切换到 SGD 来提升泛化性能,以及谷歌研究院学者 Liangchen Luo 等利用学习率动态边界的自适应梯度方法。
此外,研究人员也提出了各种针对 Adam 的改进方法,但结果不尽如人意。
虽然准确率提升了,但在 ImageNet 等大规模数据集上的泛化性能依然低于 SGD。
并且,与 Adam 相比,很多新提出的优化器在训练 GAN 时不稳定。
针对这些问题,在耶鲁大学等科研机构这篇被 NeurIPS 2020 接收的论文《AdaBelief optimizer: adapting stepsizes by the belief in observed gradients》中,研究者提出了首个同时实现如自适应方法一样快速收敛、如 SGD 一样良好泛化以及如 GAN 一样训练稳定的优化器 AdaBelief。研究者表示,该优化器可以用于训练所有对参数梯度进行数值估计的模型,进而促进深度学习模型的发展和应用。
机器之心最新一期 NeurIPS 线上分享邀请到了论文一作、耶鲁大学生物医学工程系博士生庄钧堂,为大家详细解读此前沿研究。
分享主题:
优化器 AdaBelief:根据当前梯度方向上的「belief」来调整步长
分享嘉宾:
庄钧堂,耶鲁大学生物医学工程系博士生,其导师是 James S. Duncan。研究方向为医学图像处理和机器学习,目前关注优化算法和微分方程的应用。
分享概要:
最常用的深度学习优化器大致可分为自适应方法(如 Adam)和加速方案(如带有动量的随机梯度下降(SGD))。与 SGD 相比,许多模型(如卷积神经网络)采用自适应方法通常收敛速度更快,但泛化效果却较差。对于生成对抗网络(GAN)这类的复杂情况,通常默认使用自适应方法,因为其具有稳定性。
本文提出新的优化器 AdaBelief,根据当前梯度方向上的「belief」来调整步长,将嘈杂梯度的指数移动平均(EMA)当作下一步的梯度预测。如果观察到的梯度大大偏离了预测,那么就不信任当前的观察,采取一个较小的步长;如果观察到的梯度接近预测值,那么就相信当前的观察,并采取一个较大的步长。本文通过实验验证了 AdaBelief 同时满足 3 个优点:自适应方法的快速收敛、良好泛化性、训练稳定性。
直播时间:
北京时间 11 月 19 日 20:00-21:00
论文链接:https://arxiv.org/abs/2010.07468
代码链接:https://github.com/juntang-zhuang/Adabelief-Optimizer
加入机动组,一起看直播
「机动组」是机器之心发起的人工智能技术社区,将持续提供技术公开课、论文分享、热门主题解读等线上线下活动,并在社群中提供每日精选论文与教程、智能技术研究周报,同时「机动组」也将不定期组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。添加机器之心小助手(syncedai5),备注「2020」,加入本次直播群。
ps:如果小助手无法添加,请将「微信 ID」发送邮件到 dujiahao@jiqizhixin.com,我们将与你联系,邀你入群。
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
AdaBelief
关注
0
【NeurIPS 2020】深度学习的不确定性估计和鲁棒性
专知会员服务
50+阅读 · 2020年12月8日
「NeurIPS 2020」基于局部子图的图元学习
专知会员服务
46+阅读 · 2020年10月22日
【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器,速度快,训练稳,泛化强
专知会员服务
18+阅读 · 2020年10月19日
【ICML 2020】设置LayerNorm使Transformer加速收敛
专知会员服务
16+阅读 · 2020年7月27日
【ICML2020】噪声在随机梯度下降中的泛化效益,On the Generalization Benefit of Noise in Stochastic Gradient Descent
专知会员服务
19+阅读 · 2020年6月29日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
32+阅读 · 2020年4月23日
最大均方差正则化贝叶斯神经网络,Bayesian Neural Networks With Maximum Mean Discrepancy Regularization
专知会员服务
54+阅读 · 2020年3月5日
AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架,性能提升高达120倍
专知会员服务
30+阅读 · 2020年2月26日
【ICML2019 tutorial】因果推理和稳定学习(Causal Inference and Stable Learning)
专知会员服务
175+阅读 · 2019年12月7日
【元学习 | 论文】NeuralPS19,多模态模型无关元学习,南加州大学
专知会员服务
62+阅读 · 2019年11月21日
今晚,华为诺亚方舟NeurIPS 2019论文分享:基于少量数据的神经网络模型压缩技术
机器之心
11+阅读 · 2019年11月21日
NeurIPS 2019 论文分享 | 华为诺亚方舟:基于少量数据的神经网络模型压缩技术
机器之心
3+阅读 · 2019年11月18日
今晚,NeurIPS 2019 Spotlight论文分享:不完备专家演示下的模仿学习
机器之心
8+阅读 · 2019年11月13日
最强深度学习优化器Ranger开源:RAdam+LookAhead强强结合,性能更优速度更快
AI前线
7+阅读 · 2019年9月7日
学界 | 神经网络的气宗与剑宗之争:先验强大的网络甚至不需要训练
AI研习社
6+阅读 · 2019年6月15日
【干货】GAN最新进展:8大技巧提高稳定性
GAN生成式对抗网络
31+阅读 · 2019年2月12日
GAN最新进展:8大技巧提高稳定性
新智元
7+阅读 · 2019年2月12日
当前训练神经网络最快的方式:AdamW优化算法+超级收敛
中国人工智能学会
6+阅读 · 2018年7月4日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
2017年深度学习优化算法最新进展:如何改进SGD和Adam方法?
量子位
10+阅读 · 2017年12月10日
Generalizing Adversarial Examples by AdaBelief Optimizer
Arxiv
0+阅读 · 2021年1月25日
Parallel and distributed asynchronous adaptive stochastic gradient methods
Arxiv
0+阅读 · 2021年1月25日
Selfish Sparse RNN Training
Arxiv
0+阅读 · 2021年1月22日
Linear Regression with Distributed Learning: A Generalization Error Perspective
Arxiv
0+阅读 · 2021年1月22日
Machine Learning from a Continuous Viewpoint
Arxiv
6+阅读 · 2019年12月30日
Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation
Arxiv
25+阅读 · 2019年10月30日
PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation
Arxiv
8+阅读 · 2018年12月18日
GAN-QP: A Novel GAN Framework without Gradient Vanishing and Lipschitz Constraint
Arxiv
5+阅读 · 2018年12月15日
Mean Field Multi-Agent Reinforcement Learning
Arxiv
5+阅读 · 2018年6月12日
Fictitious GAN: Training GANs with Historical Models
Arxiv
4+阅读 · 2018年3月23日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
AdaBelief
SGD
优化器
泛化
自适应
Adam
相关VIP内容
【NeurIPS 2020】深度学习的不确定性估计和鲁棒性
专知会员服务
50+阅读 · 2020年12月8日
「NeurIPS 2020」基于局部子图的图元学习
专知会员服务
46+阅读 · 2020年10月22日
【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器,速度快,训练稳,泛化强
专知会员服务
18+阅读 · 2020年10月19日
【ICML 2020】设置LayerNorm使Transformer加速收敛
专知会员服务
16+阅读 · 2020年7月27日
【ICML2020】噪声在随机梯度下降中的泛化效益,On the Generalization Benefit of Noise in Stochastic Gradient Descent
专知会员服务
19+阅读 · 2020年6月29日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
32+阅读 · 2020年4月23日
最大均方差正则化贝叶斯神经网络,Bayesian Neural Networks With Maximum Mean Discrepancy Regularization
专知会员服务
54+阅读 · 2020年3月5日
AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架,性能提升高达120倍
专知会员服务
30+阅读 · 2020年2月26日
【ICML2019 tutorial】因果推理和稳定学习(Causal Inference and Stable Learning)
专知会员服务
175+阅读 · 2019年12月7日
【元学习 | 论文】NeuralPS19,多模态模型无关元学习,南加州大学
专知会员服务
62+阅读 · 2019年11月21日
热门VIP内容
开通专知VIP会员 享更多权益服务
算法决定谁是打击目标:以色列国防军在加沙的AI应用
《美海军宙斯盾弹道导弹防御(BMD)计划》最新报告
人工智能与战场态势感知:声音检测
《自主无人机编队监视任务弹性模型研究》123页
相关资讯
今晚,华为诺亚方舟NeurIPS 2019论文分享:基于少量数据的神经网络模型压缩技术
机器之心
11+阅读 · 2019年11月21日
NeurIPS 2019 论文分享 | 华为诺亚方舟:基于少量数据的神经网络模型压缩技术
机器之心
3+阅读 · 2019年11月18日
今晚,NeurIPS 2019 Spotlight论文分享:不完备专家演示下的模仿学习
机器之心
8+阅读 · 2019年11月13日
最强深度学习优化器Ranger开源:RAdam+LookAhead强强结合,性能更优速度更快
AI前线
7+阅读 · 2019年9月7日
学界 | 神经网络的气宗与剑宗之争:先验强大的网络甚至不需要训练
AI研习社
6+阅读 · 2019年6月15日
【干货】GAN最新进展:8大技巧提高稳定性
GAN生成式对抗网络
31+阅读 · 2019年2月12日
GAN最新进展:8大技巧提高稳定性
新智元
7+阅读 · 2019年2月12日
当前训练神经网络最快的方式:AdamW优化算法+超级收敛
中国人工智能学会
6+阅读 · 2018年7月4日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
2017年深度学习优化算法最新进展:如何改进SGD和Adam方法?
量子位
10+阅读 · 2017年12月10日
相关论文
Generalizing Adversarial Examples by AdaBelief Optimizer
Arxiv
0+阅读 · 2021年1月25日
Parallel and distributed asynchronous adaptive stochastic gradient methods
Arxiv
0+阅读 · 2021年1月25日
Selfish Sparse RNN Training
Arxiv
0+阅读 · 2021年1月22日
Linear Regression with Distributed Learning: A Generalization Error Perspective
Arxiv
0+阅读 · 2021年1月22日
Machine Learning from a Continuous Viewpoint
Arxiv
6+阅读 · 2019年12月30日
Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation
Arxiv
25+阅读 · 2019年10月30日
PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation
Arxiv
8+阅读 · 2018年12月18日
GAN-QP: A Novel GAN Framework without Gradient Vanishing and Lipschitz Constraint
Arxiv
5+阅读 · 2018年12月15日
Mean Field Multi-Agent Reinforcement Learning
Arxiv
5+阅读 · 2018年6月12日
Fictitious GAN: Training GANs with Historical Models
Arxiv
4+阅读 · 2018年3月23日
大家都在搜
用户画像
量化交易
大型语言模型
斯坦福博士论文
生成式人工智能
情绪
锂电池
银行
MMMia
“跨越险阻2018”挑战赛中
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top