我们研究了深度学习优化算法评估中的几个混合因素。首先,我们深入研究自适应梯度方法如何与学习速率调整相互作用,这是一个众所周知的难以调整的超参数,它对神经网络训练的收敛和推广具有显着影响。我们引入了一个“嫁接”实验,该实验将更新的大小与其方向解耦,发现文献中的许多现有信念可能是由于对步长的隐式时间表的隔离不足而产生的。除了这一贡献之外,我们还对自适应梯度方法的推广进行了一些实证和理论回顾,旨在为这一空间带来更清晰的视角。

成为VIP会员查看完整内容
17

相关内容

工欲善其事,必先利其器,想要学习机器学习,那么首先我们就由机器学习的必备工具说起。
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
33+阅读 · 2020年7月5日
【CVPR2020】视觉推理-可微自适应计算时间
专知会员服务
12+阅读 · 2020年4月28日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
Google:数据并行对神经网络训练用时的影响
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
算法优化|梯度下降和随机梯度下降 — 从0开始
全球人工智能
7+阅读 · 2017年12月25日
A Modern Introduction to Online Learning
Arxiv
19+阅读 · 2019年12月31日
Bivariate Beta LSTM
Arxiv
5+阅读 · 2019年10月7日
A General and Adaptive Robust Loss Function
Arxiv
7+阅读 · 2018年11月5日
Arxiv
3+阅读 · 2018年10月11日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
VIP会员
相关论文
微信扫码咨询专知VIP会员