并行深度学习系统 SpeeDO - 专知

会员服务 ·

0

并行深度学习系统 SpeeDO

2018 年 2 月 13 日 深度学习 Cloud

深度学习在很多领域都大幅提高了模型的精度，使得很多以前在实验室中的技术得以运用到日常的生活之中。然而，大多数深度学习网络非常复杂，需要大量的训练样本进行训练，很多网络需要一次训练，同时额外多次的训练来调参数。时间效率上远远无法满足当前的工业需求。因此需要并行的深度学习系统提高训练速度。

各大公司在构建并行深度学习系统上投入了大量的精力，包括谷歌、Facebook、微软、腾讯和百度等等。为了提高算法的并行效率，这些系统大部分使用了多机多GPU的方式。所谓多机，即是大量的机器通过网络连接组成训练集群；多GPU即是集群内部的每台机器上包含多个GPU，通过数据并行（每个GPU训练部分数据）、模型并行（每个GPU训练部分网络）或者两者混合的方式提高加快训练速度。GPU浮点运行效率很高，这导致了并行系统的主要瓶颈在于I/O效率，因此这些系统使用了诸如InfiniBand和RDMA(Remote Direct Memory Access,全称远程直接数据存取，专用于解决网络传输中服务器端数据处理的延迟)等高性能技术, 而这些技术需要昂贵的硬件支持，大大增加了系统构建和维护的成本和难度，导致这些系统很难复制和普及到通用场景。

SpeeDO（Open DEEP learning System的逆序）是一个为通用硬件设计的并行深度学习系统。SpeeDO不需要特殊的I/O硬件，支持CPU/GPU集群，因此可以很方便地在各种云端环境上部署，如AWS、Google GCE、Microsoft Azure等等。

SpeeDO采用了目前通用的参数服务器（parameter server）架构，依赖一系列基于JVM的开源库，使用Scala语言开发。

SpeeDO的架构图如下图所示：

流程图如下图所示:

SpeeDO的主要组件及其功能如下：

l Caffe：开源深度学习库，基于C++，支持CPU/GPU。原版不支持多GPU/多机并行。

l Akka：JVM上的消息队列库，负责参数服务器和工作节点之间的并发消息处理。

l Redis：基于内存的高效并行Key-Value数据库。主要用于在参数服务器和工作节点之间传递训练的模型。这些模型一般比较大（几十至上千MB不等），不适合直接通过Akka进行传输。

l Yarn：Hadoop2的资源管理组件，实现在多台机器上一键部署参数服务器和工作节点，实时监控各节点的运行状态，处理异常。

SpeeDO提供docker镜像（只支持CPU）以方便系统的快速构建和测试，获取镜像：docker pull obdg/speedo:latest，使用方法请参考：https://github.com/openbigdatagroup/speedo。

关于SpeeDO 的更多细节，可以参阅发表在NIPS 2015 Machine Learning Systems Workshop上的论文：http://learningsys.org/papers/LearningSys_2015_paper_13.pdf。

SpeeDO的代码在Github上开源：https://github.com/openbigdatagroup/speedo，并提供了详细的安装脚本和Docker文件。

登录查看更多

1

相关内容

深度学习

机器学习的一个分支，它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【硬核课】分布式深度学习，93页ppt概述最新DDL技术发展

【硬核课】分布式深度学习，93页ppt概述最新DDL技术发展

专知会员服务

96+阅读 · 2020年6月8日

【微软】深度学习概述，65页ppt，A gentle introduction to Deep Learning

【微软】深度学习概述，65页ppt，A gentle introduction to Deep Learning

专知会员服务

66+阅读 · 2020年5月17日

【ICASSP2020】分布式与高效深度学习，140页ppt详述深度学习压缩与联邦学习训练进展

【ICASSP2020】分布式与高效深度学习，140页ppt详述深度学习压缩与联邦学习训练进展

专知会员服务

126+阅读 · 2020年5月6日

【UCSD-MIT】深度学习隐私综述论文，Privacy in Deep Learning: A Survey

【UCSD-MIT】深度学习隐私综述论文，Privacy in Deep Learning: A Survey

专知会员服务

68+阅读 · 2020年4月28日

【香港浸会大学】有效通信的分布式深度学习:一个全面的综述

【香港浸会大学】有效通信的分布式深度学习:一个全面的综述

专知会员服务

44+阅读 · 2020年3月10日

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

专知会员服务

45+阅读 · 2020年3月9日

【文献综述】边缘计算与深度学习的融合综述论文

【文献综述】边缘计算与深度学习的融合综述论文

专知会员服务

168+阅读 · 2019年12月26日

【大规模数据系统，552页ppt】Large-scale Data Systems

【大规模数据系统，552页ppt】Large-scale Data Systems

专知会员服务

61+阅读 · 2019年12月21日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

51+阅读 · 2019年11月8日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

浅谈 Kubernetes 在生产环境中的架构

浅谈 Kubernetes 在生产环境中的架构

DevOps时代

11+阅读 · 2019年5月8日

Github项目推荐 | NeuronBlocks：微软发布的模块化深度学习NLP工具集

Github项目推荐 | NeuronBlocks：微软发布的模块化深度学习NLP工具集

AI研习社

8+阅读 · 2019年4月26日

Tensorflow框架是如何支持分布式训练的？

Tensorflow框架是如何支持分布式训练的？

AI100

9+阅读 · 2019年3月26日

业界 | TensorFlow 2.0 Alpha 版来了！吴恩达配套课程同步上线

业界 | TensorFlow 2.0 Alpha 版来了！吴恩达配套课程同步上线

AI研习社

4+阅读 · 2019年3月9日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

全球人工智能

6+阅读 · 2018年12月24日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

20+阅读 · 2018年12月21日

深度学习开发必备开源框架

深度学习开发必备开源框架

九章算法

12+阅读 · 2018年5月30日

深度学习人脸识别系统DFace

深度学习人脸识别系统DFace

深度学习

17+阅读 · 2018年2月14日

上海交大团队：如何用TVM优化ARM架构GPU，在移动端实现快速深度学习

上海交大团队：如何用TVM优化ARM架构GPU，在移动端实现快速深度学习

论智

5+阅读 · 2018年1月17日

学界 | 阿里 NIPS 2017 Workshop论文：基于 TensorFlow 的深度模型训练 GPU 显存优化

学界 | 阿里 NIPS 2017 Workshop论文：基于 TensorFlow 的深度模型训练 GPU 显存优化

AI科技评论

4+阅读 · 2017年12月17日

Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems

Arxiv

7+阅读 · 2020年3月12日

Speeding-up Object Detection Training for Robotics with FALKON

Speeding-up Object Detection Training for Robotics with FALKON

Arxiv

6+阅读 · 2018年8月27日

Efficient end-to-end learning for quantizable representations

Arxiv

6+阅读 · 2018年5月15日

BigDL: A Distributed Deep Learning Framework for Big Data

Arxiv

4+阅读 · 2018年4月16日

CuLDA_CGS: Solving Large-scale LDA Problems on GPUs

Arxiv

3+阅读 · 2018年3月13日

Recent Trends in Deep Learning Based Natural Language Processing

Arxiv

7+阅读 · 2018年2月20日

SpectralNet: Spectral Clustering using Deep Neural Networks

Arxiv

11+阅读 · 2018年1月10日

Learning Tree-based Deep Model for Recommender Systems

Arxiv

7+阅读 · 2018年1月8日

Tracking in Aerial Hyperspectral Videos using Deep Kernelized Correlation Filters

Arxiv

6+阅读 · 2017年12月27日

Deep Learning based Recommender System: A Survey and New Perspectives

Arxiv

6+阅读 · 2017年8月3日

VIP会员

相关主题

参数服务器

相关VIP内容

【硬核课】分布式深度学习，93页ppt概述最新DDL技术发展

【硬核课】分布式深度学习，93页ppt概述最新DDL技术发展

专知会员服务

96+阅读 · 2020年6月8日

【微软】深度学习概述，65页ppt，A gentle introduction to Deep Learning

【微软】深度学习概述，65页ppt，A gentle introduction to Deep Learning

专知会员服务

66+阅读 · 2020年5月17日

【ICASSP2020】分布式与高效深度学习，140页ppt详述深度学习压缩与联邦学习训练进展

【ICASSP2020】分布式与高效深度学习，140页ppt详述深度学习压缩与联邦学习训练进展

专知会员服务

126+阅读 · 2020年5月6日

【UCSD-MIT】深度学习隐私综述论文，Privacy in Deep Learning: A Survey

【UCSD-MIT】深度学习隐私综述论文，Privacy in Deep Learning: A Survey

专知会员服务

68+阅读 · 2020年4月28日

【香港浸会大学】有效通信的分布式深度学习:一个全面的综述

【香港浸会大学】有效通信的分布式深度学习:一个全面的综述

专知会员服务

44+阅读 · 2020年3月10日

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

专知会员服务

45+阅读 · 2020年3月9日

【文献综述】边缘计算与深度学习的融合综述论文

【文献综述】边缘计算与深度学习的融合综述论文

专知会员服务

168+阅读 · 2019年12月26日

【大规模数据系统，552页ppt】Large-scale Data Systems

【大规模数据系统，552页ppt】Large-scale Data Systems

专知会员服务

61+阅读 · 2019年12月21日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

51+阅读 · 2019年11月8日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

数据要素发展报告(2025年)：附下载

人工智能代理提升战时舰船战备水平

【NeurIPS2025教程】大语言模型规划

NeurIPS 2025 教程：深度学习训练不稳定性的理论洞见

相关资讯

浅谈 Kubernetes 在生产环境中的架构

浅谈 Kubernetes 在生产环境中的架构

DevOps时代

11+阅读 · 2019年5月8日

Github项目推荐 | NeuronBlocks：微软发布的模块化深度学习NLP工具集

Github项目推荐 | NeuronBlocks：微软发布的模块化深度学习NLP工具集

AI研习社

8+阅读 · 2019年4月26日

Tensorflow框架是如何支持分布式训练的？

Tensorflow框架是如何支持分布式训练的？

AI100

9+阅读 · 2019年3月26日

业界 | TensorFlow 2.0 Alpha 版来了！吴恩达配套课程同步上线

业界 | TensorFlow 2.0 Alpha 版来了！吴恩达配套课程同步上线

AI研习社

4+阅读 · 2019年3月9日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

全球人工智能

6+阅读 · 2018年12月24日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

20+阅读 · 2018年12月21日

深度学习开发必备开源框架

深度学习开发必备开源框架

九章算法

12+阅读 · 2018年5月30日

深度学习人脸识别系统DFace

深度学习人脸识别系统DFace

深度学习

17+阅读 · 2018年2月14日

上海交大团队：如何用TVM优化ARM架构GPU，在移动端实现快速深度学习

上海交大团队：如何用TVM优化ARM架构GPU，在移动端实现快速深度学习

论智

5+阅读 · 2018年1月17日

学界 | 阿里 NIPS 2017 Workshop论文：基于 TensorFlow 的深度模型训练 GPU 显存优化

学界 | 阿里 NIPS 2017 Workshop论文：基于 TensorFlow 的深度模型训练 GPU 显存优化

AI科技评论

4+阅读 · 2017年12月17日

相关论文

Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems

Arxiv

7+阅读 · 2020年3月12日

Speeding-up Object Detection Training for Robotics with FALKON

Speeding-up Object Detection Training for Robotics with FALKON

Arxiv

6+阅读 · 2018年8月27日

Efficient end-to-end learning for quantizable representations

Arxiv

6+阅读 · 2018年5月15日

BigDL: A Distributed Deep Learning Framework for Big Data

Arxiv

4+阅读 · 2018年4月16日

CuLDA_CGS: Solving Large-scale LDA Problems on GPUs

Arxiv

3+阅读 · 2018年3月13日

Recent Trends in Deep Learning Based Natural Language Processing

Arxiv

7+阅读 · 2018年2月20日

SpectralNet: Spectral Clustering using Deep Neural Networks

Arxiv

11+阅读 · 2018年1月10日

Learning Tree-based Deep Model for Recommender Systems

Arxiv

7+阅读 · 2018年1月8日

Tracking in Aerial Hyperspectral Videos using Deep Kernelized Correlation Filters

Arxiv

6+阅读 · 2017年12月27日

Deep Learning based Recommender System: A Survey and New Perspectives

Arxiv

6+阅读 · 2017年8月3日

大家都在搜

大型语言模型

生成式人工智能

无人机系统

蓝牙安全攻防

朱克爱德华兹家族

再见，TD-SCDMA！

微信扫码咨询专知VIP会员