论文摘要:本工作针对机器学习算法的分布式梯度优化,期望通过设 计一系列算法层面的方法,首先优化计算过程和通信过程,进而从全局上优化整体迭 代过程,最终实现在分布式环境下高效高性能的目标。具体而言,本文的研究内容有 以下三点主要贡献。
- 面向高维海量数据的并行策略。目前机器学习算法的分布式梯 度优化使用的数据并行或模型并行策略无法同时解决高维模型和海量数据的双重挑战。作者首先提出一个严格的代价模型,以煇煂煄煔算法为例系统性地比较了已有的分布式系统架构,并选择参数服务器作为底层架构;然后在深入分析算法 特点的基础上,提出了基于参数服务器的混合并行策略,并以煇煂煄煔算法为例设 计和实现了提出的方法。
- 面向稀疏梯度的数据压缩。目前机器学习算法的分布式梯度优 化常常使用低精度数据压缩算法来压缩梯度数据,但是并不适合普遍存在的 稀疏梯度数据。作者提出了一种数据压缩算法来压缩以键值对形式存储的稀疏梯度。
- 面向异构环境的同步协议。目前机器学习算法的分布式梯度优 化的相关研究应用了多种同步协议,但是真实世界的集群环境往往是异构的,现有的 同步协议不适合这种异构环境,从而造成分布式梯度优化算法性能的显著下降。 作者首先分析现有同步协议造成算法性能下降的原因,在此基础之上针对异构 环境的特点提出了异构感知的同步协议,对模型参数更新的延迟程度建立理论 模型,并提出全局学习速度的机制。
关键词:机器学习,分布式梯度优化,梯度提升树,随机梯度下降,数据草图
作者介绍: 江佳伟,男, 信息科学技术学院 计算机软件与理论专业,他的博士生导师是崔斌教授, 博士学位论文题目为《机器学习算法的分布式梯度优化研究》。博士期间学术成果:CCF A类会议SIGMOD发表第一作者论文3篇,CCF A类SCI期刊TOIS发表第一作者论文1篇,CCF A类会议ICDE发表通讯作者论文1篇,CCF B类会议DASFAA发表第一作者论文1篇,CCF C类会议APWeb-WAIM发表第一作者论文1篇,SCI期刊NSR发表第三作者论文1篇。