积极-消极动力:操纵蒸汽梯级噪音,改进普遍化 (Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to Improve Generalization) - 专知论文

会员服务 ·

0

泛化理论 · 动量 · 噪声 · Extensibility · SGD ·

2021 年 5 月 10 日

Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to Improve Generalization

翻译：积极-消极动力:操纵蒸汽梯级噪音,改进普遍化

Zeke Xie,Li Yuan,Zhanxing Zhu,Masashi Sugiyama

from arxiv, ICML 2021; 19 pages; 12 figures; Key Words: deep learning theory, optimizer, momentum, generalization

It is well-known that stochastic gradient noise (SGN) acts as implicit regularization for deep learning and is essentially important for both optimization and generalization of deep networks. Some works attempted to artificially simulate SGN by injecting random noise to improve deep learning. However, it turned out that the injected simple random noise cannot work as well as SGN, which is anisotropic and parameter-dependent. For simulating SGN at low computational costs and without changing the learning rate or batch size, we propose the Positive-Negative Momentum (PNM) approach that is a powerful alternative to conventional Momentum in classic optimizers. The introduced PNM method maintains two approximate independent momentum terms. Then, we can control the magnitude of SGN explicitly by adjusting the momentum difference. We theoretically prove the convergence guarantee and the generalization advantage of PNM over Stochastic Gradient Descent (SGD). By incorporating PNM into the two conventional optimizers, SGD with Momentum and Adam, our extensive experiments empirically verified the significant advantage of the PNM-based variants over the corresponding conventional Momentum-based optimizers. Code: \url{https://github.com/zeke-xie/Positive-Negative-Momentum}.

翻译：众所周知,随机性梯度噪音(SGN)是深层学习的隐性规范,对深层网络的优化和普及都具有根本重要性。有些作品试图通过注入随机噪音来人工模拟SGN,以改进深层学习。然而,结果发现,注入的简单随机噪音与SGN是不能同时起作用的,因为SGN是厌养和参数依赖的。为了以低计算成本模拟SGN,而不改变学习率或批量大小,我们提议采用积极-否定性运动(PNM)方法,这是传统优化剂中传统潮流的强大替代物。引入的PNM方法保持了两个大致独立的动力条件。然后,我们可以通过调整动力差异来明确控制SGNT的规模。我们理论上证明PNM对托氏基因梯分源(SGD)的趋同性和普遍性优势。我们将PNMM与运动和亚当两种常规优化剂(SGDD)结合,我们的广泛实验从经验上证实了PNM的变体相对于相应的常规湿质优化剂(Moumsi)/MQorimaltistriaxi-cotium)的显著优势。守则:Musmation:Myaltium/Mylmentalmentaltium/Mististry/Mistium/Mistitionaltitionalticxionalticxionalxy.codecode.code:m.

0

相关内容

泛化理论

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

专知会员服务

69+阅读 · 2021年3月27日

【ICLR2021】微分动态规划神经优化器

专知会员服务

16+阅读 · 2021年3月4日

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

专知会员服务

58+阅读 · 2020年11月21日

【Google】深度学习对抗鲁棒性，43页ppt

专知会员服务

45+阅读 · 2020年10月31日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【北京智源大会2019】神经网络的优化Optimization for Overparametrized Deep Neural Networks，北京大学 | 王立威

【北京智源大会2019】神经网络的优化Optimization for Overparametrized Deep Neural Networks，北京大学 | 王立威

专知会员服务

23+阅读 · 2019年11月21日

【ICCV 2019】贝叶斯优化的1-Bit CNNs 《Bayesian Optimized 1-Bit CNNs》

【ICCV 2019】贝叶斯优化的1-Bit CNNs 《Bayesian Optimized 1-Bit CNNs》

专知会员服务

16+阅读 · 2019年11月17日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

LibRec 精选：AutoML for Contextual Bandits

LibRec 精选：AutoML for Contextual Bandits

LibRec智能推荐

7+阅读 · 2019年9月19日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

条件GAN重大改进！cGANs with Projection Discriminator

条件GAN重大改进！cGANs with Projection Discriminator

CreateAMind

8+阅读 · 2018年2月7日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

Finite-Sample Analysis of Stochastic Approximation Using Smooth Convex Envelopes

Arxiv

0+阅读 · 2021年6月30日

Complexity of Stochastic Dual Dynamic Programming

Arxiv

0+阅读 · 2021年6月29日

Learning from History for Byzantine Robust Optimization

Arxiv

0+阅读 · 2021年6月29日

High-probability Bounds for Non-Convex Stochastic Optimization with Heavy Tails

Arxiv

0+阅读 · 2021年6月28日

Stabilizing Equilibrium Models by Jacobian Regularization

Arxiv

0+阅读 · 2021年6月28日

Proxy Convexity: A Unified Framework for the Analysis of Neural Networks Trained by Gradient Descent

Arxiv

0+阅读 · 2021年6月25日

Tighter Analysis of Alternating Stochastic Gradient Method for Stochastic Nested Problems

Arxiv

0+阅读 · 2021年6月25日

Improving Collaborative Metric Learning with Efficient Negative Sampling

Arxiv

3+阅读 · 2019年9月24日

Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Arxiv

8+阅读 · 2018年11月21日

Approximability of Discriminators Implies Diversity in GANs

Approximability of Discriminators Implies Diversity in GANs

Arxiv

4+阅读 · 2018年6月27日

VIP会员

文章信息

相关主题

相关VIP内容

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

专知会员服务

69+阅读 · 2021年3月27日

【ICLR2021】微分动态规划神经优化器

专知会员服务

16+阅读 · 2021年3月4日

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

专知会员服务

58+阅读 · 2020年11月21日

【Google】深度学习对抗鲁棒性，43页ppt

专知会员服务

45+阅读 · 2020年10月31日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【北京智源大会2019】神经网络的优化Optimization for Overparametrized Deep Neural Networks，北京大学 | 王立威

【北京智源大会2019】神经网络的优化Optimization for Overparametrized Deep Neural Networks，北京大学 | 王立威

专知会员服务

23+阅读 · 2019年11月21日

【ICCV 2019】贝叶斯优化的1-Bit CNNs 《Bayesian Optimized 1-Bit CNNs》

【ICCV 2019】贝叶斯优化的1-Bit CNNs 《Bayesian Optimized 1-Bit CNNs》

专知会员服务

16+阅读 · 2019年11月17日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

计算机视觉领域的后门攻击与防御：综述

美陆军高管谈俄乌战事启示：数据、人工智能与电磁战

深度学习中泛化的量化、理解与改进

从图像去噪到成像逆问题的正则化：综述

相关资讯

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

LibRec 精选：AutoML for Contextual Bandits

LibRec 精选：AutoML for Contextual Bandits

LibRec智能推荐

7+阅读 · 2019年9月19日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

条件GAN重大改进！cGANs with Projection Discriminator

条件GAN重大改进！cGANs with Projection Discriminator

CreateAMind

8+阅读 · 2018年2月7日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Finite-Sample Analysis of Stochastic Approximation Using Smooth Convex Envelopes

Arxiv

0+阅读 · 2021年6月30日

Complexity of Stochastic Dual Dynamic Programming

Arxiv

0+阅读 · 2021年6月29日

Learning from History for Byzantine Robust Optimization

Arxiv

0+阅读 · 2021年6月29日

High-probability Bounds for Non-Convex Stochastic Optimization with Heavy Tails

Arxiv

0+阅读 · 2021年6月28日

Stabilizing Equilibrium Models by Jacobian Regularization

Arxiv

0+阅读 · 2021年6月28日

Proxy Convexity: A Unified Framework for the Analysis of Neural Networks Trained by Gradient Descent

Arxiv

0+阅读 · 2021年6月25日

Tighter Analysis of Alternating Stochastic Gradient Method for Stochastic Nested Problems

Arxiv

0+阅读 · 2021年6月25日

Improving Collaborative Metric Learning with Efficient Negative Sampling

Arxiv

3+阅读 · 2019年9月24日

Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Arxiv

8+阅读 · 2018年11月21日

Approximability of Discriminators Implies Diversity in GANs

Approximability of Discriminators Implies Diversity in GANs

Arxiv

4+阅读 · 2018年6月27日

微信扫码咨询专知VIP会员