Adaptive gradient methods including Adam, AdaGrad, and their variants have been very successful for training deep learning models, such as neural networks. Meanwhile, given the need for distributed computing, distributed optimization algorithms are rapidly becoming a focal point. With the growth of computing power and the need for using machine learning models on mobile devices, the communication cost of distributed training algorithms needs careful consideration. In this paper, we introduce novel convergent decentralized adaptive gradient methods and rigorously incorporate adaptive gradient methods into decentralized training procedures. Specifically, we propose a general algorithmic framework that can convert existing adaptive gradient methods to their decentralized counterparts. In addition, we thoroughly analyze the convergence behavior of the proposed algorithmic framework and show that if a given adaptive gradient method converges, under some specific conditions, then its decentralized counterpart is also convergent. We illustrate the benefit of our generic decentralized framework on a prototype method, i.e., AMSGrad, both theoretically and numerically.


翻译:适应性梯度方法,包括Adam, AdaGrad, 及其变种,在培训神经网络等深层学习模型方面非常成功。 同时,由于需要分布式计算,分布式优化算法正在迅速成为一个协调中心。随着计算能力的增长和在移动设备上使用机器学习模型的需要,分布式培训算法的通信成本需要仔细考虑。在本文中,我们引入了新颖的分散式分散式适应性梯度方法,并将适应性梯度方法严格纳入分散式培训程序。具体地说,我们提议了一个一般算法框架,将现有的适应性梯度方法转换到分散式的对应方。此外,我们透彻分析拟议的算法框架的趋同行为,并表明如果特定适应性梯度方法在某些特定条件下趋于一致,那么分散式的对应方也会趋于一致。我们从理论上和数字上说明了我们通用的分散化框架在原型方法(即AMSGrad)上的好处。

0
下载
关闭预览

相关内容

专知会员服务
24+阅读 · 2021年7月8日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
【边缘智能综述论文】A Survey on Edge Intelligence
专知会员服务
114+阅读 · 2020年3月30日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
将门创投
5+阅读 · 2018年11月15日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年10月28日
Arxiv
0+阅读 · 2021年10月26日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
VIP会员
相关VIP内容
专知会员服务
24+阅读 · 2021年7月8日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
【边缘智能综述论文】A Survey on Edge Intelligence
专知会员服务
114+阅读 · 2020年3月30日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
将门创投
5+阅读 · 2018年11月15日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员