论文摘要:本工作针对机器学习算法的分布式梯度优化,期望通过设 计一系列算法层面的方法,首先优化计算过程和通信过程,进而从全局上优化整体迭 代过程,最终实现在分布式环境下高效高性能的目标。具体而言,本文的研究内容有 以下三点主要贡献。

  1. 面向高维海量数据的并行策略。目前机器学习算法的分布式梯 度优化使用的数据并行或模型并行策略无法同时解决高维模型和海量数据的双重挑战。作者首先提出一个严格的代价模型,以煇煂煄煔算法为例系统性地比较了已有的分布式系统架构,并选择参数服务器作为底层架构;然后在深入分析算法 特点的基础上,提出了基于参数服务器的混合并行策略,并以煇煂煄煔算法为例设 计和实现了提出的方法。
  2. 面向稀疏梯度的数据压缩。目前机器学习算法的分布式梯度优 化常常使用低精度数据压缩算法来压缩梯度数据,但是并不适合普遍存在的 稀疏梯度数据。作者提出了一种数据压缩算法来压缩以键值对形式存储的稀疏梯度。
  3. 面向异构环境的同步协议。目前机器学习算法的分布式梯度优 化的相关研究应用了多种同步协议,但是真实世界的集群环境往往是异构的,现有的 同步协议不适合这种异构环境,从而造成分布式梯度优化算法性能的显著下降。 作者首先分析现有同步协议造成算法性能下降的原因,在此基础之上针对异构 环境的特点提出了异构感知的同步协议,对模型参数更新的延迟程度建立理论 模型,并提出全局学习速度的机制。

关键词:机器学习,分布式梯度优化,梯度提升树,随机梯度下降,数据草图

作者介绍: 江佳伟,男, 信息科学技术学院 计算机软件与理论专业,他的博士生导师是崔斌教授, 博士学位论文题目为《机器学习算法的分布式梯度优化研究》。博士期间学术成果:CCF A类会议SIGMOD发表第一作者论文3篇,CCF A类SCI期刊TOIS发表第一作者论文1篇,CCF A类会议ICDE发表通讯作者论文1篇,CCF B类会议DASFAA发表第一作者论文1篇,CCF C类会议APWeb-WAIM发表第一作者论文1篇,SCI期刊NSR发表第三作者论文1篇。

成为VIP会员查看完整内容
机器学习算法的分布式梯度优化研究.pdf
56

相关内容

梯度下降法是一个最优化算法,通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一,虽然现在已经不具有实用性,但是许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。可以用于求解非线性方程组
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
85+阅读 · 2020年5月23日
CMU博士论文:可微优化机器学习建模
专知会员服务
58+阅读 · 2019年10月26日
分布式智能计算系统前沿
中国计算机学会
19+阅读 · 2019年10月8日
分布式入门,怎样用PyTorch实现多GPU分布式训练
机器之心
7+阅读 · 2019年5月3日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
26+阅读 · 2018年12月13日
NYU陈溪博士:运筹学与机器学习的融合交叉
AI科技评论
6+阅读 · 2018年7月21日
机器学习必知的15大框架
人工智能学家
9+阅读 · 2017年12月6日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
独家 | 一文读懂优化算法
数据派THU
8+阅读 · 2017年9月15日
Arxiv
110+阅读 · 2020年2月5日
Arxiv
45+阅读 · 2019年12月20日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
26+阅读 · 2019年3月5日
Arxiv
3+阅读 · 2018年3月13日
VIP会员
相关资讯
分布式智能计算系统前沿
中国计算机学会
19+阅读 · 2019年10月8日
分布式入门,怎样用PyTorch实现多GPU分布式训练
机器之心
7+阅读 · 2019年5月3日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
26+阅读 · 2018年12月13日
NYU陈溪博士:运筹学与机器学习的融合交叉
AI科技评论
6+阅读 · 2018年7月21日
机器学习必知的15大框架
人工智能学家
9+阅读 · 2017年12月6日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
独家 | 一文读懂优化算法
数据派THU
8+阅读 · 2017年9月15日
微信扫码咨询专知VIP会员