无妥协的适应性:斯托卡优化的动态、适应性、双平均值梯度方法 (Adaptivity without Compromise: A Momentumized, Adaptive, Dual Averaged Gradient Method for Stochastic Optimization) - 专知论文

会员服务 ·

0

平均梯度 · 优化器 · Performer · AdaGrad · Adam ·

2021 年 8 月 26 日

Adaptivity without Compromise: A Momentumized, Adaptive, Dual Averaged Gradient Method for Stochastic Optimization

翻译：无妥协的适应性:斯托卡优化的动态、适应性、双平均值梯度方法

Aaron Defazio,Samy Jelassi

We introduce MADGRAD, a novel optimization method in the family of AdaGrad adaptive gradient methods. MADGRAD shows excellent performance on deep learning optimization problems from multiple fields, including classification and image-to-image tasks in vision, and recurrent and bidirectionally-masked models in natural language processing. For each of these tasks, MADGRAD matches or outperforms both SGD and ADAM in test set performance, even on problems for which adaptive methods normally perform poorly.

翻译：我们引入了MADGRAD,这是AdaGrad适应性梯度方法大家庭中的一种新颖优化方法。MADGRAD展示了多个领域在深层次学习优化问题方面的出色表现,包括视觉分类和图像到图像任务,以及自然语言处理中的经常性和双向模具模型。对于其中每一项任务,MADGRAD在测试成套性能方面都匹配或优于SGD和ADAM,甚至就适应性能通常不佳的问题而言也是如此。

0

相关内容

平均梯度

【ICML2021】随机迭代图匹配

专知会员服务

25+阅读 · 2021年6月8日

【ICML2021】异质风险最小化，Heterogeneous Risk Minimization

专知会员服务

16+阅读 · 2021年5月21日

【CVPR2021】深度稳定学习分布外泛化

专知会员服务

30+阅读 · 2021年5月20日

【干货书】鲁棒优化Robust Optimization，570页pdf

专知会员服务

144+阅读 · 2021年3月17日

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

专知会员服务

57+阅读 · 2020年11月21日

【Google】深度学习对抗鲁棒性，43页ppt

专知会员服务

45+阅读 · 2020年10月31日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

专知会员服务

15+阅读 · 2020年1月13日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

《应用随机微分方程》(Applied Stochastic Differential Equations)324页pdf新书分享

《应用随机微分方程》(Applied Stochastic Differential Equations)324页pdf新书分享

专知会员服务

44+阅读 · 2019年10月28日

鲁棒机器学习相关文献集

鲁棒机器学习相关文献集

专知

8+阅读 · 2019年8月18日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

深度学习优化算法入门：二、动量、RMSProp、Adam

深度学习优化算法入门：二、动量、RMSProp、Adam

论智

10+阅读 · 2018年10月2日

【论文推荐】最新5篇行人重识别（ Person Re-ID）相关论文—样本生成、超越人类、实践指南、姿态归一化、图像生成

【论文推荐】最新5篇行人重识别（ Person Re-ID）相关论文—样本生成、超越人类、实践指南、姿态归一化、图像生成

专知

7+阅读 · 2018年2月14日

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

机器学习研究会

12+阅读 · 2017年11月25日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

Highway Networks For Sentence Classification

Highway Networks For Sentence Classification

哈工大SCIR

4+阅读 · 2017年9月30日

深度撕裂的台湾：Semantics-Preserving Hash

深度撕裂的台湾：Semantics-Preserving Hash

我爱读PAMI

4+阅读 · 2017年3月29日

A Global Stochastic Optimization Particle Filter Algorithm

Arxiv

0+阅读 · 2021年10月18日

Adaptive Tikhonov strategies for stochastic ensemble Kalman inversion

Arxiv

0+阅读 · 2021年10月18日

Training Deep Neural Networks with Adaptive Momentum Inspired by the Quadratic Optimization

Arxiv

0+阅读 · 2021年10月18日

Scalable Consistency Training for Graph Neural Networks via Self-Ensemble Self-Distillation

Arxiv

0+阅读 · 2021年10月12日

Bandwidth-based Step-Sizes for Non-Convex Stochastic Optimization

Arxiv

0+阅读 · 2021年10月11日

Frequency-aware SGD for Efficient Embedding Learning with Provable Benefits

Arxiv

0+阅读 · 2021年10月10日

Surrogate-Based Black-Box Optimization Method for Costly Molecular Properties

Arxiv

0+阅读 · 2021年10月1日

Towards Gradient-based Bilevel Optimization with Non-convex Followers and Beyond

Arxiv

5+阅读 · 2021年10月1日

Hyperparameter Ensembles for Robustness and Uncertainty Quantification

Arxiv

12+阅读 · 2020年6月24日

Topology Adaptive Graph Convolutional Networks

Arxiv

3+阅读 · 2018年2月11日

VIP会员

文章信息

相关主题

相关VIP内容

【ICML2021】随机迭代图匹配

专知会员服务

25+阅读 · 2021年6月8日

【ICML2021】异质风险最小化，Heterogeneous Risk Minimization

专知会员服务

16+阅读 · 2021年5月21日

【CVPR2021】深度稳定学习分布外泛化

专知会员服务

30+阅读 · 2021年5月20日

【干货书】鲁棒优化Robust Optimization，570页pdf

专知会员服务

144+阅读 · 2021年3月17日

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

专知会员服务

57+阅读 · 2020年11月21日

【Google】深度学习对抗鲁棒性，43页ppt

专知会员服务

45+阅读 · 2020年10月31日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

专知会员服务

15+阅读 · 2020年1月13日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

《应用随机微分方程》(Applied Stochastic Differential Equations)324页pdf新书分享

《应用随机微分方程》(Applied Stochastic Differential Equations)324页pdf新书分享

专知会员服务

44+阅读 · 2019年10月28日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】通过真实世界实践赋能机器人自主性

军用无人机集群技术尚未成熟——但潜力可期

人工智能安全治理白皮书（2025）

AgentOps综述：分类、挑战与未来方向

相关资讯

鲁棒机器学习相关文献集

鲁棒机器学习相关文献集

专知

8+阅读 · 2019年8月18日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

深度学习优化算法入门：二、动量、RMSProp、Adam

深度学习优化算法入门：二、动量、RMSProp、Adam

论智

10+阅读 · 2018年10月2日

【论文推荐】最新5篇行人重识别（ Person Re-ID）相关论文—样本生成、超越人类、实践指南、姿态归一化、图像生成

【论文推荐】最新5篇行人重识别（ Person Re-ID）相关论文—样本生成、超越人类、实践指南、姿态归一化、图像生成

专知

7+阅读 · 2018年2月14日

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

机器学习研究会

12+阅读 · 2017年11月25日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

Highway Networks For Sentence Classification

Highway Networks For Sentence Classification

哈工大SCIR

4+阅读 · 2017年9月30日

深度撕裂的台湾：Semantics-Preserving Hash

深度撕裂的台湾：Semantics-Preserving Hash

我爱读PAMI

4+阅读 · 2017年3月29日

相关论文

A Global Stochastic Optimization Particle Filter Algorithm

Arxiv

0+阅读 · 2021年10月18日

Adaptive Tikhonov strategies for stochastic ensemble Kalman inversion

Arxiv

0+阅读 · 2021年10月18日

Training Deep Neural Networks with Adaptive Momentum Inspired by the Quadratic Optimization

Arxiv

0+阅读 · 2021年10月18日

Scalable Consistency Training for Graph Neural Networks via Self-Ensemble Self-Distillation

Arxiv

0+阅读 · 2021年10月12日

Bandwidth-based Step-Sizes for Non-Convex Stochastic Optimization

Arxiv

0+阅读 · 2021年10月11日

Frequency-aware SGD for Efficient Embedding Learning with Provable Benefits

Arxiv

0+阅读 · 2021年10月10日

Surrogate-Based Black-Box Optimization Method for Costly Molecular Properties

Arxiv

0+阅读 · 2021年10月1日

Towards Gradient-based Bilevel Optimization with Non-convex Followers and Beyond

Arxiv

5+阅读 · 2021年10月1日

Hyperparameter Ensembles for Robustness and Uncertainty Quantification

Arxiv

12+阅读 · 2020年6月24日

Topology Adaptive Graph Convolutional Networks

Arxiv

3+阅读 · 2018年2月11日

微信扫码咨询专知VIP会员