【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient - 专知VIP

会员服务 ·

1

机器学习工具 · 自适应学习 · 梯度 ·

2020 年 3 月 5 日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

我们研究了深度学习优化算法评估中的几个混合因素。首先，我们深入研究自适应梯度方法如何与学习速率调整相互作用，这是一个众所周知的难以调整的超参数，它对神经网络训练的收敛和推广具有显着影响。我们引入了一个“嫁接”实验，该实验将更新的大小与其方向解耦，发现文献中的许多现有信念可能是由于对步长的隐式时间表的隔离不足而产生的。除了这一贡献之外，我们还对自适应梯度方法的推广进行了一些实证和理论回顾，旨在为这一空间带来更清晰的视角。

成为VIP会员查看完整内容

19

相关内容

机器学习工具

机器学习工具

工欲善其事，必先利其器，想要学习机器学习，那么首先我们就由机器学习的必备工具说起。

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【CVPR2020】视觉推理-可微自适应计算时间

【CVPR2020】视觉推理-可微自适应计算时间

专知会员服务

13+阅读 · 2020年4月28日

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

专知会员服务

54+阅读 · 2020年3月5日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

专知会员服务

39+阅读 · 2020年1月30日

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

专知会员服务

175+阅读 · 2019年12月7日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

元强化学习迎来一盆冷水：不比元Q学习好多少

元强化学习迎来一盆冷水：不比元Q学习好多少

AI科技评论

12+阅读 · 2020年2月27日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

ICML2019最佳论文奖新鲜发布，Google、ETH、MaxPlanck、剑桥成最终赢家

ICML2019最佳论文奖新鲜发布，Google、ETH、MaxPlanck、剑桥成最终赢家

专知

8+阅读 · 2019年6月12日

你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

新智元

9+阅读 · 2019年3月20日

Google：数据并行对神经网络训练用时的影响

Google：数据并行对神经网络训练用时的影响

论智

4+阅读 · 2018年11月27日

ICLR 2018最佳论文公布：Adam的收敛性，球面CNN，连续适应获奖

ICLR 2018最佳论文公布：Adam的收敛性，球面CNN，连续适应获奖

AI科技评论

4+阅读 · 2018年4月12日

OpenAI提出Reptile：可扩展的元学习算法

OpenAI提出Reptile：可扩展的元学习算法

深度学习世界

7+阅读 · 2018年3月9日

算法优化｜梯度下降和随机梯度下降 — 从0开始

算法优化｜梯度下降和随机梯度下降 — 从0开始

全球人工智能

8+阅读 · 2017年12月25日

教程 | 拟合目标函数后验分布的调参利器：贝叶斯优化

教程 | 拟合目标函数后验分布的调参利器：贝叶斯优化

机器之心

6+阅读 · 2017年8月18日

Distributed Non-Convex Optimization with Sublinear Speedup under Intermittent Client Availability

Arxiv

11+阅读 · 2020年2月18日

A Modern Introduction to Online Learning

A Modern Introduction to Online Learning

Arxiv

21+阅读 · 2019年12月31日

Bivariate Beta LSTM

Bivariate Beta LSTM

Arxiv

6+阅读 · 2019年10月7日

Learning Discrete Structures for Graph Neural Networks

Arxiv

6+阅读 · 2019年5月17日

A General and Adaptive Robust Loss Function

A General and Adaptive Robust Loss Function

Arxiv

8+阅读 · 2018年11月5日

Learning under Misspecified Objective Spaces

Arxiv

3+阅读 · 2018年10月11日

Physical Primitive Decomposition

Physical Primitive Decomposition

Arxiv

4+阅读 · 2018年9月13日

ANS: Adaptive Network Scaling for Deep Rectifier Reinforcement Learning Models

ANS: Adaptive Network Scaling for Deep Rectifier Reinforcement Learning Models

Arxiv

3+阅读 · 2018年9月6日

Understanding and Improving Interpolation in Autoencoders via an Adversarial Regularizer

Understanding and Improving Interpolation in Autoencoders via an Adversarial Regularizer

Arxiv

3+阅读 · 2018年7月19日

Noise2Noise: Learning Image Restoration without Clean Data

Arxiv

5+阅读 · 2018年3月12日

VIP会员

相关主题

机器学习工具

自适应学习

相关VIP内容

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【CVPR2020】视觉推理-可微自适应计算时间

【CVPR2020】视觉推理-可微自适应计算时间

专知会员服务

13+阅读 · 2020年4月28日

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

专知会员服务

54+阅读 · 2020年3月5日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

专知会员服务

39+阅读 · 2020年1月30日

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

专知会员服务

175+阅读 · 2019年12月7日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《巡飞弹药（爆炸性无人机）威胁态势分析》最新24页报告

《军用后勤无人机：破解战场运输挑战的创新方案》

人工智能战争：以色列、伊朗与新型AI战争形态

《俄乌战争：现代战争未来的启示与经验》

相关资讯

元强化学习迎来一盆冷水：不比元Q学习好多少

元强化学习迎来一盆冷水：不比元Q学习好多少

AI科技评论

12+阅读 · 2020年2月27日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

ICML2019最佳论文奖新鲜发布，Google、ETH、MaxPlanck、剑桥成最终赢家

ICML2019最佳论文奖新鲜发布，Google、ETH、MaxPlanck、剑桥成最终赢家

专知

8+阅读 · 2019年6月12日

你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

新智元

9+阅读 · 2019年3月20日

Google：数据并行对神经网络训练用时的影响

Google：数据并行对神经网络训练用时的影响

论智

4+阅读 · 2018年11月27日

ICLR 2018最佳论文公布：Adam的收敛性，球面CNN，连续适应获奖

ICLR 2018最佳论文公布：Adam的收敛性，球面CNN，连续适应获奖

AI科技评论

4+阅读 · 2018年4月12日

OpenAI提出Reptile：可扩展的元学习算法

OpenAI提出Reptile：可扩展的元学习算法

深度学习世界

7+阅读 · 2018年3月9日

算法优化｜梯度下降和随机梯度下降 — 从0开始

算法优化｜梯度下降和随机梯度下降 — 从0开始

全球人工智能

8+阅读 · 2017年12月25日

教程 | 拟合目标函数后验分布的调参利器：贝叶斯优化

教程 | 拟合目标函数后验分布的调参利器：贝叶斯优化

机器之心

6+阅读 · 2017年8月18日

相关论文

Distributed Non-Convex Optimization with Sublinear Speedup under Intermittent Client Availability

Arxiv

11+阅读 · 2020年2月18日

A Modern Introduction to Online Learning

A Modern Introduction to Online Learning

Arxiv

21+阅读 · 2019年12月31日

Bivariate Beta LSTM

Bivariate Beta LSTM

Arxiv

6+阅读 · 2019年10月7日

Learning Discrete Structures for Graph Neural Networks

Arxiv

6+阅读 · 2019年5月17日

A General and Adaptive Robust Loss Function

A General and Adaptive Robust Loss Function

Arxiv

8+阅读 · 2018年11月5日

Learning under Misspecified Objective Spaces

Arxiv

3+阅读 · 2018年10月11日

Physical Primitive Decomposition

Physical Primitive Decomposition

Arxiv

4+阅读 · 2018年9月13日

ANS: Adaptive Network Scaling for Deep Rectifier Reinforcement Learning Models

ANS: Adaptive Network Scaling for Deep Rectifier Reinforcement Learning Models

Arxiv

3+阅读 · 2018年9月6日

Understanding and Improving Interpolation in Autoencoders via an Adversarial Regularizer

Understanding and Improving Interpolation in Autoencoders via an Adversarial Regularizer

Arxiv

3+阅读 · 2018年7月19日

Noise2Noise: Learning Image Restoration without Clean Data

Arxiv

5+阅读 · 2018年3月12日

微信扫码咨询专知VIP会员