We introduce MADGRAD, a novel optimization method in the family of AdaGrad adaptive gradient methods. MADGRAD shows excellent performance on deep learning optimization problems from multiple fields, including classification and image-to-image tasks in vision, and recurrent and bidirectionally-masked models in natural language processing. For each of these tasks, MADGRAD matches or outperforms both SGD and ADAM in test set performance, even on problems for which adaptive methods normally perform poorly.


翻译:我们引入了MADGRAD,这是AdaGrad适应性梯度方法大家庭中的一种新颖优化方法。MADGRAD展示了多个领域在深层次学习优化问题方面的出色表现,包括视觉分类和图像到图像任务,以及自然语言处理中的经常性和双向模具模型。对于其中每一项任务,MADGRAD在测试成套性能方面都匹配或优于SGD和ADAM,甚至就适应性能通常不佳的问题而言也是如此。

0
下载
关闭预览

相关内容

专知会员服务
23+阅读 · 2021年6月8日
专知会员服务
14+阅读 · 2021年5月21日
专知会员服务
29+阅读 · 2021年5月20日
专知会员服务
141+阅读 · 2021年3月17日
专知会员服务
44+阅读 · 2020年10月31日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD
机器学习研究会
12+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
深度撕裂的台湾:Semantics-Preserving Hash
我爱读PAMI
4+阅读 · 2017年3月29日
Arxiv
3+阅读 · 2018年2月11日
VIP会员
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD
机器学习研究会
12+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
深度撕裂的台湾:Semantics-Preserving Hash
我爱读PAMI
4+阅读 · 2017年3月29日
Top
微信扫码咨询专知VIP会员