并行算法演进，从MapReduce到MPI - 专知

会员服务 ·

1

并行算法演进，从MapReduce到MPI

2017 年 11 月 5 日 凡人机器学习

再不点蓝字关注，机会就要飞走了哦

1 MapReduce路线

从函数式编程中的受到启发，google发布了MapReduce的分布式计算方式；通过将任务切分成多个叠加的Map+Reduce任务，来完成复杂的计算任务，示意图如下

MapReduce的主要问题有两个，一是原语的语义过于低级，直接使用其来写复杂算法，开发量比较大；另一个问题是依赖于磁盘进行数据传递，性能跟不上业务需求。

为了解决MapReduce的两个问题，Matei提出了一种新的数据结构RDD，并构建了Spark框架。Spark框架在MR语义之上封装了DAG调度器，极大降低了算法使用的门槛。较长时间内spark几乎可以说是大规模机器学习的代表，直至后来沐帅的参数服务器进一步开拓了大规模机器学习的领域以后，spark才暴露出一点点不足。如下图

从图中可以看出，spark框架以Driver为核心，任务调度和参数汇总都在driver，而driver是单机结构，所以spark的瓶颈非常明显，就在Driver这里。当模型规模大到一台机器存不下的时候，Spark就无法正常运行了。所以从今天的眼光来看，Spark只能称为一个中等规模的机器学习框架。剧透一句，公司开源的Angel通过修改Driver的底层协议将Spark扩展到了一个高一层的境界。后面还会再详细介绍这部分。

MapReduce不仅是一个框架，还是一种思想，google开创性的工作为我们找到了大数据分析的一个可行方向，时至今日，仍不过时。只是逐渐从业务层下沉到底层语义应该处于的框架下层。

2 MPI技术

沐帅对MPI的前景做了简要介绍；和Spark不同，MPI是类似socket的一种系统通信API，只是支持了消息广播等功能。因为对MPI研究不深入，这里简单介绍下优点和缺点吧；优点是系统级支持，性能杠杠的；缺点也比较多，一是和MR一样因为原语过于低级，用MPI写算法，往往代码量比较大。另一方面是基于MPI的集群，如果某个任务失败，往往需要重启整个集群，而MPI集群的任务成功率并不高。阿里在论文中中给出了下图：

从图中可以看出，MPI作业失败的几率接近五成。MPI也并不是完全没有可取之处，正如沐帅所说，在超算集群上还是有场景的。对于工业届依赖于云计算、依赖于commodity计算机来说，则显得性价比不够高。当然如果在参数服务器的框架下，对单组worker再使用MPI未尝不是个好的尝试，[鲲鹏系统正式这么设计的。

转自36大数据

长按指纹

一键关注

登录查看更多

10

相关内容

MapReduce

MapReduce 是 Google 提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。

大规模时间序列分析框架的研究与实现，计算机学报

大规模时间序列分析框架的研究与实现，计算机学报

专知会员服务

59+阅读 · 2020年7月13日

【机器学习术语宝典】机器学习中英文术语表

【机器学习术语宝典】机器学习中英文术语表

专知会员服务

61+阅读 · 2020年7月12日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

最新《机器学习理论初探》概述

最新《机器学习理论初探》概述

专知会员服务

48+阅读 · 2020年5月19日

Python分布式计算，171页pdf，Distributed Computing with Python

Python分布式计算，171页pdf，Distributed Computing with Python

专知会员服务

108+阅读 · 2020年5月3日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

专知会员服务

45+阅读 · 2020年3月9日

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

专知会员服务

61+阅读 · 2019年12月9日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

【上海交通大学】分布式移动端机器学习综述论文，28页pdf

【上海交通大学】分布式移动端机器学习综述论文，28页pdf

专知会员服务

45+阅读 · 2019年10月12日

推荐系统丨完整的架构设计和算法（协同过滤、隐语义）

推荐系统丨完整的架构设计和算法（协同过滤、隐语义）

架构文摘

16+阅读 · 2019年9月9日

训练速度提升超3倍！斯坦福推出全新深度学习并行计算框架FlexFlow

训练速度提升超3倍！斯坦福推出全新深度学习并行计算框架FlexFlow

AI前线

7+阅读 · 2019年6月22日

滴滴梁李印：滴滴是如何从零构建中式实时计算平台的？

滴滴梁李印：滴滴是如何从零构建中式实时计算平台的？

AI研习社

3+阅读 · 2019年4月19日

Tensorflow框架是如何支持分布式训练的？

Tensorflow框架是如何支持分布式训练的？

AI100

9+阅读 · 2019年3月26日

解读2018：13家开源框架谁能统一流计算？

解读2018：13家开源框架谁能统一流计算？

AI前线

3+阅读 · 2018年12月17日

SLA 99.99%以上！饿了么实时计算平台3年演进历程

SLA 99.99%以上！饿了么实时计算平台3年演进历程

51CTO博客

11+阅读 · 2018年4月10日

超越Spark，大数据集群计算的生产实践（内含福利）

超越Spark，大数据集群计算的生产实践（内含福利）

CSDN大数据

6+阅读 · 2017年9月15日

分布式机器学习平台大比拼：Spark、PMLS、TensorFlow、MXNet

分布式机器学习平台大比拼：Spark、PMLS、TensorFlow、MXNet

大数据杂谈

5+阅读 · 2017年8月21日

分布式机器学习平台比较

分布式机器学习平台比较

云栖社区

4+阅读 · 2017年8月13日

Spark的误解-不仅Spark是内存计算，Hadoop也是内存计算

Spark的误解-不仅Spark是内存计算，Hadoop也是内存计算

大数据技术

5+阅读 · 2017年7月28日

Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems

Arxiv

7+阅读 · 2020年3月12日

Fi-GNN: Modeling Feature Interactions via Graph Neural Networks for CTR Prediction

Arxiv

9+阅读 · 2019年10月12日

Approximation Ratios of Graph Neural Networks for Combinatorial Problems

Arxiv

7+阅读 · 2019年5月24日

Adaptive Neural Trees

Adaptive Neural Trees

Arxiv

4+阅读 · 2018年12月10日

Fire SSD: Wide Fire Modules based Single Shot Detector on Edge Device

Arxiv

3+阅读 · 2018年10月16日

Optimal Algorithms for Non-Smooth Distributed Optimization in Networks

Arxiv

7+阅读 · 2018年6月1日

BigDL: A Distributed Deep Learning Framework for Big Data

Arxiv

4+阅读 · 2018年4月16日

MXNET-MPI: Embedding MPI parallelism in Parameter Server Task Model for scaling Deep Learning

Arxiv

4+阅读 · 2018年1月11日

A Big Data Analysis Framework Using Apache Spark and Deep Learning

Arxiv

3+阅读 · 2017年11月25日

DeepWalk: Online Learning of Social Representations

Arxiv

8+阅读 · 2014年6月27日

VIP会员

相关主题

函数式编程

参数服务器

磁流变材料

相关VIP内容

大规模时间序列分析框架的研究与实现，计算机学报

大规模时间序列分析框架的研究与实现，计算机学报

专知会员服务

59+阅读 · 2020年7月13日

【机器学习术语宝典】机器学习中英文术语表

【机器学习术语宝典】机器学习中英文术语表

专知会员服务

61+阅读 · 2020年7月12日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

最新《机器学习理论初探》概述

最新《机器学习理论初探》概述

专知会员服务

48+阅读 · 2020年5月19日

Python分布式计算，171页pdf，Distributed Computing with Python

Python分布式计算，171页pdf，Distributed Computing with Python

专知会员服务

108+阅读 · 2020年5月3日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

专知会员服务

45+阅读 · 2020年3月9日

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

专知会员服务

61+阅读 · 2019年12月9日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

【上海交通大学】分布式移动端机器学习综述论文，28页pdf

【上海交通大学】分布式移动端机器学习综述论文，28页pdf

专知会员服务

45+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《美空军条令出版物：战略打击》最新条令

《高能激光武器》22页slides

军事前沿模型

《面向小型无人机或无人飞行器的创新雷达探测与人工智能分类技术》263页

相关资讯

推荐系统丨完整的架构设计和算法（协同过滤、隐语义）

推荐系统丨完整的架构设计和算法（协同过滤、隐语义）

架构文摘

16+阅读 · 2019年9月9日

训练速度提升超3倍！斯坦福推出全新深度学习并行计算框架FlexFlow

训练速度提升超3倍！斯坦福推出全新深度学习并行计算框架FlexFlow

AI前线

7+阅读 · 2019年6月22日

滴滴梁李印：滴滴是如何从零构建中式实时计算平台的？

滴滴梁李印：滴滴是如何从零构建中式实时计算平台的？

AI研习社

3+阅读 · 2019年4月19日

Tensorflow框架是如何支持分布式训练的？

Tensorflow框架是如何支持分布式训练的？

AI100

9+阅读 · 2019年3月26日

解读2018：13家开源框架谁能统一流计算？

解读2018：13家开源框架谁能统一流计算？

AI前线

3+阅读 · 2018年12月17日

SLA 99.99%以上！饿了么实时计算平台3年演进历程

SLA 99.99%以上！饿了么实时计算平台3年演进历程

51CTO博客

11+阅读 · 2018年4月10日

超越Spark，大数据集群计算的生产实践（内含福利）

超越Spark，大数据集群计算的生产实践（内含福利）

CSDN大数据

6+阅读 · 2017年9月15日

分布式机器学习平台大比拼：Spark、PMLS、TensorFlow、MXNet

分布式机器学习平台大比拼：Spark、PMLS、TensorFlow、MXNet

大数据杂谈

5+阅读 · 2017年8月21日

分布式机器学习平台比较

分布式机器学习平台比较

云栖社区

4+阅读 · 2017年8月13日

Spark的误解-不仅Spark是内存计算，Hadoop也是内存计算

Spark的误解-不仅Spark是内存计算，Hadoop也是内存计算

大数据技术

5+阅读 · 2017年7月28日

相关论文

Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems

Arxiv

7+阅读 · 2020年3月12日

Fi-GNN: Modeling Feature Interactions via Graph Neural Networks for CTR Prediction

Arxiv

9+阅读 · 2019年10月12日

Approximation Ratios of Graph Neural Networks for Combinatorial Problems

Arxiv

7+阅读 · 2019年5月24日

Adaptive Neural Trees

Adaptive Neural Trees

Arxiv

4+阅读 · 2018年12月10日

Fire SSD: Wide Fire Modules based Single Shot Detector on Edge Device

Arxiv

3+阅读 · 2018年10月16日

Optimal Algorithms for Non-Smooth Distributed Optimization in Networks

Arxiv

7+阅读 · 2018年6月1日

BigDL: A Distributed Deep Learning Framework for Big Data

Arxiv

4+阅读 · 2018年4月16日

MXNET-MPI: Embedding MPI parallelism in Parameter Server Task Model for scaling Deep Learning

Arxiv

4+阅读 · 2018年1月11日

A Big Data Analysis Framework Using Apache Spark and Deep Learning

Arxiv

3+阅读 · 2017年11月25日

DeepWalk: Online Learning of Social Representations

Arxiv

8+阅读 · 2014年6月27日

大家都在搜

软件无线电

大型语言模型

无人机集群

国防科技创新

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员