Deep learning applications require global optimization of non-convex objective functions, which have multiple local minima. The same problem is often found in physical simulations and may be resolved by the methods of Langevin dynamics with Simulated Annealing, which is a well-established approach for minimization of many-particle potentials. This analogy provides useful insights for non-convex stochastic optimization in machine learning. Here we find that integration of the discretized Langevin equation gives a coordinate updating rule equivalent to the famous Momentum optimization algorithm. As a main result, we show that a gradual decrease of the momentum coefficient from the initial value close to unity until zero is equivalent to application of Simulated Annealing or slow cooling, in physical terms. Making use of this novel approach, we propose CoolMomentum -- a new stochastic optimization method. Applying Coolmomentum to optimization of Resnet-20 on Cifar-10 dataset and Efficientnet-B0 on Imagenet, we demonstrate that it is able to achieve high accuracies.


翻译:深度学习应用需要全球优化非碳化目标功能,这些功能具有多重本地微量值。 同样的问题经常在物理模拟中发现,并可能通过模拟Annaaling的Langevin动态方法来解决,这是尽量减少多粒子潜力的既定方法。 这个类比为机学中非碳化蒸汽优化提供了有用的洞察力。 我们在这里发现, 分解的兰氏方程式的整合提供了与著名的Momentum优化算法相当的协调更新规则。 主要结果是, 我们显示, 动力系数从初始值接近统一时逐渐下降至零, 在物理术语中相当于模拟烷化或慢冷却的应用。 我们建议使用这种新颖方法, 冷色Momentum -- -- 一种新型的随机优化方法。 在Cifar- 10 数据集上应用冷却模型来优化Resnet-20, 我们在图像网上应用冷却调调调, 我们证明它能够达到高度的适应力。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年4月2日
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
49+阅读 · 2021年1月20日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
专知会员服务
115+阅读 · 2019年12月24日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
已删除
将门创投
5+阅读 · 2019年4月29日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
VIP会员
相关资讯
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
已删除
将门创投
5+阅读 · 2019年4月29日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员