A graph neural network (GNN) enables deep learning on structured graph data. There are two major GNN training obstacles: 1) it relies on high-end servers with many GPUs which are expensive to purchase and maintain, and 2) limited memory on GPUs cannot scale to today's billion-edge graphs. This paper presents Dorylus: a distributed system for training GNNs. Uniquely, Dorylus can take advantage of serverless computing to increase scalability at a low cost. The key insight guiding our design is computation separation. Computation separation makes it possible to construct a deep, bounded-asynchronous pipeline where graph and tensor parallel tasks can fully overlap, effectively hiding the network latency incurred by Lambdas. With the help of thousands of Lambda threads, Dorylus scales GNN training to billion-edge graphs. Currently, for large graphs, CPU servers offer the best performance-per-dollar over GPU servers. Just using Lambdas on top of CPU servers offers up to 2.75x more performance-per-dollar than training only with CPU servers. Concretely, Dorylus is 1.22x faster and 4.83x cheaper than GPU servers for massive sparse graphs. Dorylus is up to 3.8x faster and 10.7x cheaper compared to existing sampling-based systems.


翻译:图形神经网络( GNN) 能够对结构图形数据进行深层次学习。 有两大 GNN 培训障碍:(1) 它依赖高端服务器和许多GPU, 购买和维护费用昂贵, 以及(2) 它依赖高端、 闭紧的输油管道, 购买和维护费用昂贵, 以及(2) GPU 上有限的记忆无法缩到今天的亿层图表。 本文展示了 Dorylus : 用于培训 GNN 的分布式系统 。 独特地, Dorylus 可以利用无服务器的计算来提高可缩放性。 指导我们设计的关键见解是计算分解。 计算分解使得能够建造一个深层、 闭紧的输油管, 其中图形和 高压平行任务可以完全重叠, 有效地隐藏 Lambadas 所引发的网络内嵌。 在数千个 Lambda 线索的帮助下, Dorylus 将 GNNNNT 培训升级为10- pay- pagefallserver 服务器。 Doryls 将比 Crealx 更快速的GReal 和GRealx 10- creal- seral 更快地压。

0
下载
关闭预览

相关内容

专知会员服务
76+阅读 · 2021年3月16日
最新《图理论》笔记书,98页pdf
专知会员服务
74+阅读 · 2020年12月27日
专知会员服务
52+阅读 · 2020年11月3日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
106+阅读 · 2020年5月3日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
2020图机器学习GNN的四大研究趋势,21篇论文下载
专知会员服务
135+阅读 · 2020年2月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
人工智能 | UAI 2019等国际会议信息4条
Call4Papers
6+阅读 · 2019年1月14日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
已删除
AI科技评论
4+阅读 · 2018年8月12日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年7月14日
Arxiv
0+阅读 · 2021年7月13日
Arxiv
13+阅读 · 2021年6月14日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
VIP会员
相关VIP内容
专知会员服务
76+阅读 · 2021年3月16日
最新《图理论》笔记书,98页pdf
专知会员服务
74+阅读 · 2020年12月27日
专知会员服务
52+阅读 · 2020年11月3日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
106+阅读 · 2020年5月3日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
2020图机器学习GNN的四大研究趋势,21篇论文下载
专知会员服务
135+阅读 · 2020年2月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
人工智能 | UAI 2019等国际会议信息4条
Call4Papers
6+阅读 · 2019年1月14日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
已删除
AI科技评论
4+阅读 · 2018年8月12日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员