成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
NeurIPS 2020线上分享 | 耶鲁博士庄钧堂:兼顾收敛、泛化和稳定性的新型优化器AdaBelief
2020 年 11 月 17 日
机器之心
现代神经网络通常利用一阶梯度方法进行训练,这类方法又可以划分为两个不同的方向,分别是加速随机梯度下降(SGD)和自适应学习率方法(如 Adagrad 和 Adam)。两者的运行原理不同,SGD 方法学习使用所有参数的全局学习率,而自适应方法计算每个参数的学习率。运行原理的不同也导致两者在效果方面出现差异。
具体而言,自适应方法通过在早期训练阶段收敛较快,但遗憾的是泛化性能太差。所以,如何结合 SGD 和自适应方法的各自优势成为重要的研究课题。例如,Salesforce 研究院高级研究科学家 Nitish Shirish Keskar 等通过从 Adam 切换到 SGD 来提升泛化性能,以及谷歌研究院学者 Liangchen Luo 等利用学习率动态边界的自适应梯度方法。
此外,研究人员也提出了各种针对 Adam 的改进方法,但结果不尽如人意。
虽然准确率提升了,但在 ImageNet 等大规模数据集上的泛化性能依然低于 SGD。
并且,与 Adam 相比,很多新提出的优化器在训练 GAN 时不稳定。
针对这些问题,在耶鲁大学等科研机构这篇被 NeurIPS 2020 接收的论文《AdaBelief optimizer: adapting stepsizes by the belief in observed gradients》中,研究者提出了首个同时实现如自适应方法一样快速收敛、如 SGD 一样良好泛化以及如 GAN 一样训练稳定的优化器 AdaBelief。研究者表示,该优化器可以用于训练所有对参数梯度进行数值估计的模型,进而促进深度学习模型的发展和应用。
机器之心最新一期 NeurIPS 线上分享邀请到了论文一作、耶鲁大学生物医学工程系博士生庄钧堂,为大家详细解读此前沿研究。
分享主题:
优化器 AdaBelief:根据当前梯度方向上的「belief」来调整步长
分享嘉宾:
庄钧堂,耶鲁大学生物医学工程系博士生,其导师是 James S. Duncan。研究方向为医学图像处理和机器学习,目前关注优化算法和微分方程的应用。
分享概要:
最常用的深度学习优化器大致可分为自适应方法(如 Adam)和加速方案(如带有动量的随机梯度下降(SGD))。与 SGD 相比,许多模型(如卷积神经网络)采用自适应方法通常收敛速度更快,但泛化效果却较差。对于生成对抗网络(GAN)这类的复杂情况,通常默认使用自适应方法,因为其具有稳定性。
本文提出新的优化器 AdaBelief,根据当前梯度方向上的「belief」来调整步长,将嘈杂梯度的指数移动平均(EMA)当作下一步的梯度预测。如果观察到的梯度大大偏离了预测,那么就不信任当前的观察,采取一个较小的步长;如果观察到的梯度接近预测值,那么就相信当前的观察,并采取一个较大的步长。本文通过实验验证了 AdaBelief 同时满足 3 个优点:自适应方法的快速收敛、良好泛化性、训练稳定性。
直播时间:
北京时间 11 月 19 日 20:00-21:00
论文链接:https://arxiv.org/abs/2010.07468
代码链接:https://github.com/juntang-zhuang/Adabelief-Optimizer
加入机动组,一起看直播
「机动组」是机器之心发起的人工智能技术社区,将持续提供技术公开课、论文分享、热门主题解读等线上线下活动,并在社群中提供每日精选论文与教程、智能技术研究周报,同时「机动组」也将不定期组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。添加机器之心小助手(syncedai5),备注「2020」,加入本次直播群。
ps:如果小助手无法添加,请将「微信 ID」发送邮件到 dujiahao@jiqizhixin.com,我们将与你联系,邀你入群。
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
AdaBelief
关注
0
【AAAI2021】近似梯度下降的学习图神经网络
专知会员服务
20+阅读 · 2020年12月9日
【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器,速度快,训练稳,泛化强
专知会员服务
18+阅读 · 2020年10月19日
【NeurIPS 2020】大规模分布式鲁棒优化方法
专知会员服务
26+阅读 · 2020年10月13日
【德国杜宾根大学博士论文】深度生成模型的稳定性与表达力,279页pdf
专知会员服务
43+阅读 · 2020年9月9日
【斯坦福大学博士论文】大规模和高维统计学习方法和算法,147页pdf
专知会员服务
104+阅读 · 2020年6月13日
【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
85+阅读 · 2020年6月9日
如何持续深度学习?看这份《DNN2GP: 从深度神经网络到高斯过程》45页ppt和论文提供新思路
专知会员服务
57+阅读 · 2020年5月15日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
26+阅读 · 2020年5月7日
【香港浸会大学】有效通信的分布式深度学习:一个全面的综述
专知会员服务
44+阅读 · 2020年3月10日
CMU博士论文:可微优化机器学习建模
专知会员服务
60+阅读 · 2019年10月26日
贝叶斯与深度学习如何结合?看这份256页《贝叶斯深度学习原理 》SPCOM2020硬核教程
专知
19+阅读 · 2020年7月22日
NeurIPS提前看 | 四篇论文,一窥元学习的最新研究进展
机器之心
12+阅读 · 2019年12月9日
最强深度学习优化器Ranger开源:RAdam+LookAhead强强结合,性能更优速度更快
AI前线
7+阅读 · 2019年9月7日
Dropout、梯度消失/爆炸、Adam优化算法,神经网络优化算法看这一篇就够了
AI100
14+阅读 · 2019年9月1日
你的模型刚不刚?谷歌提出“刚度”概念,探索神经网络泛化新视角
新智元
9+阅读 · 2019年3月20日
7个实用的深度学习技巧
机器学习算法与Python学习
16+阅读 · 2019年3月6日
【伯克利博士论文】统计与优化—统计学习算法的计算保障(附143页PDF全文下载)
专知
28+阅读 · 2019年1月2日
当前训练神经网络最快的方式:AdamW优化算法+超级收敛
中国人工智能学会
6+阅读 · 2018年7月4日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
2017年深度学习优化算法最新进展:如何改进SGD和Adam方法?
量子位
10+阅读 · 2017年12月10日
Ellipse Combining with Unknown Cross Ellipse Correlations
Arxiv
0+阅读 · 2021年1月28日
Revisiting Batch Normalization for Improving Corruption Robustness
Arxiv
0+阅读 · 2021年1月28日
Evaluation of BERT and ALBERT Sentence Embedding Performance on Downstream NLP Tasks
Arxiv
0+阅读 · 2021年1月26日
When MAML Can Adapt Fast and How to Assist When It Cannot
Arxiv
0+阅读 · 2021年1月24日
Context-Specific Likelihood Weighting
Arxiv
0+阅读 · 2021年1月24日
Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation
Arxiv
25+阅读 · 2019年10月30日
How to train your MAML
Arxiv
26+阅读 · 2019年3月5日
PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation
Arxiv
8+阅读 · 2018年12月18日
Towards Understanding Regularization in Batch Normalization
Arxiv
4+阅读 · 2018年9月27日
Adversarial Meta-Learning
Arxiv
7+阅读 · 2018年6月8日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
AdaBelief
SGD
优化器
泛化
自适应
Adam
相关VIP内容
【AAAI2021】近似梯度下降的学习图神经网络
专知会员服务
20+阅读 · 2020年12月9日
【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器,速度快,训练稳,泛化强
专知会员服务
18+阅读 · 2020年10月19日
【NeurIPS 2020】大规模分布式鲁棒优化方法
专知会员服务
26+阅读 · 2020年10月13日
【德国杜宾根大学博士论文】深度生成模型的稳定性与表达力,279页pdf
专知会员服务
43+阅读 · 2020年9月9日
【斯坦福大学博士论文】大规模和高维统计学习方法和算法,147页pdf
专知会员服务
104+阅读 · 2020年6月13日
【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
85+阅读 · 2020年6月9日
如何持续深度学习?看这份《DNN2GP: 从深度神经网络到高斯过程》45页ppt和论文提供新思路
专知会员服务
57+阅读 · 2020年5月15日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
26+阅读 · 2020年5月7日
【香港浸会大学】有效通信的分布式深度学习:一个全面的综述
专知会员服务
44+阅读 · 2020年3月10日
CMU博士论文:可微优化机器学习建模
专知会员服务
60+阅读 · 2019年10月26日
热门VIP内容
开通专知VIP会员 享更多权益服务
算法决定谁是打击目标:以色列国防军在加沙的AI应用
《美海军宙斯盾弹道导弹防御(BMD)计划》最新报告
人工智能与战场态势感知:声音检测
《自主无人机编队监视任务弹性模型研究》123页
相关资讯
贝叶斯与深度学习如何结合?看这份256页《贝叶斯深度学习原理 》SPCOM2020硬核教程
专知
19+阅读 · 2020年7月22日
NeurIPS提前看 | 四篇论文,一窥元学习的最新研究进展
机器之心
12+阅读 · 2019年12月9日
最强深度学习优化器Ranger开源:RAdam+LookAhead强强结合,性能更优速度更快
AI前线
7+阅读 · 2019年9月7日
Dropout、梯度消失/爆炸、Adam优化算法,神经网络优化算法看这一篇就够了
AI100
14+阅读 · 2019年9月1日
你的模型刚不刚?谷歌提出“刚度”概念,探索神经网络泛化新视角
新智元
9+阅读 · 2019年3月20日
7个实用的深度学习技巧
机器学习算法与Python学习
16+阅读 · 2019年3月6日
【伯克利博士论文】统计与优化—统计学习算法的计算保障(附143页PDF全文下载)
专知
28+阅读 · 2019年1月2日
当前训练神经网络最快的方式:AdamW优化算法+超级收敛
中国人工智能学会
6+阅读 · 2018年7月4日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
2017年深度学习优化算法最新进展:如何改进SGD和Adam方法?
量子位
10+阅读 · 2017年12月10日
相关论文
Ellipse Combining with Unknown Cross Ellipse Correlations
Arxiv
0+阅读 · 2021年1月28日
Revisiting Batch Normalization for Improving Corruption Robustness
Arxiv
0+阅读 · 2021年1月28日
Evaluation of BERT and ALBERT Sentence Embedding Performance on Downstream NLP Tasks
Arxiv
0+阅读 · 2021年1月26日
When MAML Can Adapt Fast and How to Assist When It Cannot
Arxiv
0+阅读 · 2021年1月24日
Context-Specific Likelihood Weighting
Arxiv
0+阅读 · 2021年1月24日
Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation
Arxiv
25+阅读 · 2019年10月30日
How to train your MAML
Arxiv
26+阅读 · 2019年3月5日
PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation
Arxiv
8+阅读 · 2018年12月18日
Towards Understanding Regularization in Batch Normalization
Arxiv
4+阅读 · 2018年9月27日
Adversarial Meta-Learning
Arxiv
7+阅读 · 2018年6月8日
大家都在搜
用户画像
量化交易
大型语言模型
斯坦福博士论文
生成式人工智能
情绪
锂电池
银行
MMMia
“跨越险阻2018”挑战赛中
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top