十亿节点大规模图计算降至「分钟」级,腾讯开源图计算框架柏拉图

2019 年 11 月 15 日 机器之心
机器之心报道
参与:蛋酱
11 月 14 日,腾讯正式宣布开源高性能图计算框架 Plato,据介绍,Plato 可满足十亿级节点的超大规模图计算需求,将算法计算时间从「天」级缩短到「分钟」级,性能全面领先于其它主流分布式图计算框架,并且打破了原本动辄需要数百台服务器的资源瓶颈。
Plato 开源地址:https://github.com/tencent/plato


伴随着人工智能领域技术的发展,「图计算」的应用场景也越来越广泛。 熟悉的人都知道,图计算的「图」并不是指普通的图像和照片,而是用于表示对象之间关联关系的一种抽象数据结构。 图计算可以将不同来源、不同类型的数据融合到同一个图里进行分析,得到原本独立分析难以发现的结果,因此成为社交网络、推荐系统、网络安全、文本检索和生物医疗等领域至关重要的数据分析和挖掘工具。


最强性能的图计算框架 Plato


Plato 是腾讯内部图计算 TGraph 团队整合内部资源自主研发的一款高性能图计算框架,取名 Plato 是为了致敬伟大的数学家柏拉图。 目前腾讯云大数据团队正在封装 Plato,即将对所有开发者开放使用。


相对于目前全球范围内其它的图计算框架,Plato 可满足十亿级节点的超大规模图计算需求,将算法计算时间从天级缩短到分钟级,性能全面领先于其它主流分布式图计算框架,并且打破了原本动辄需要数百台服务器的资源瓶颈。 现在,最少只需要十台服务器即可完成计算。


综合来说,Plato 在计算性能方面极其强悍,主要有以下贡献:


  • Plato 能高效地支撑腾讯超大规模社交网络图数据的各类计算,且性能达到了学术界和工业界的顶尖水平,比 Spark GraphX 高出 1-2 个数量级,使得许多按天计算的算法可在小时甚至分钟级别完成,也意味着腾讯图计算全面进入了分钟级时代;

  • Plato 的内存消耗比 Spark GraphX 减少了 1-2 个数量级,意味着只需中小规模的集群(10 台服务器左右)即可完成腾讯数据量级的超大规模图计算,打破了动辄需要上百台服务器的资源瓶颈,同时也极大地节约了计算成本;

  • Plato 隶属腾讯图计算 TGraph,起源于超大规模社交网络图数据,但可以完美适配其他类型的图数据,同时,Plato 作为高性能、可扩展、易插拔的工业级图计算框架,推动了业界超大规模图计算框架的技术进步。


两大核心能力


目前,Plato 主要提供两大核心能力: 腾讯数据量级下的离线图计算和腾讯数据量级下的图表示学习。 同时,Plato 可运行在通用的 X86 集群,如 Kubernetes 集群、Yarn 集群等。 在文件系统层面,Plato 提供了多种接口支持主流的文件系统,如 HDFS、Ceph 等。

腾讯 Plato 整体架构图


在架构设计上,Plato 框架的核心是自适应图计算引擎,它能够根据不同类型的图算法,提供多种计算模式供开发者灵活选择,包括自适应计算模式、共享内存计算模式和流水线计算模式等。 另外,还设计了良好的接口支持接入新的计算通信模式。


在计算引擎之上,Plato 为算法设计者或具体的业务提供多层次接口: 从底层的 API,到图算法库,再到为具体业务量身打造的「解决方案」——图工具集。 通过这些应用层的接口和工具,Plato 还可以把离线计算结果与其他机器学习算法相结合,共同支撑顶层的不同业务。


值得一提的是,目前 Plato 的算法库中的图特征、节点中心性指标、连通图和社团识别等多种算法都已经开源,未来还将进一步开源更多的算法。


目前已经开源的算法包括:


  • 图特征

  • 树深度/宽度

  • 图特征打包计算:节点数/边数/密度/节点度分布

  • N-阶度

  • HyperANF

  • 节点中心性指标

  •  KCore

  •  Pagerank

  •  Closeness

  •  Betweenness

  • 连通图 & 社团识别

  •  Connected-Component

  •  LPA

  •  HANP

  • 图表示学习

  •  Node2Vec-Randomwalk

  •  Metapath-Randomwalk

  • 聚类/分圈算法

  •  LDA

  •  FastUnfolding

  • 其他图相关算法

  •  BFS

  •  共同类计算


即将开源的算法:


  • Network Embedding

  • LINE

  • Word2Vec

  • GraphVite

  • GNN

  •  GCN

  •  GraphSage


性能对比


下图选取了 Plato 与 Spark GraphX 在 PageRank 和 LPA 这两个 benchmark 算法中的性能对比(受限于篇幅原因,其他 benchmark 算法性能对比不再赘述,性能对比和上述两个算法类似)。 从下图可以看到,Plato 的性能比 Spark GraphX 高出 1-2 个数量级。


除了计算性能不足,内存占用过大也是限制大规模图计算的主要因素。 Plato 的另一个巨大优势则是它的内存开销远小于主流图计算框架。 从下图可以看出,Plato 的内存消耗比 Spark GraphX 减少了 1-2 个数量级,为超大规模图计算创造了更大的想象空间。


Plato 不仅在 benchmark 算法中独树一帜,在真实的业务算法中也同样成效卓著。 在腾讯数据量级下,Plato 的计算性能也非常优秀。 下图给出了 Plato 在腾讯数据量级下的共同类计算、Node2Vec、LINE、GraphSage 等典型业务算法的性能(受限于篇幅原因,其他算法性能不再赘述,性能和上述算法类似)。


腾讯开源蓝图


Plato 高性能、可扩展、易插拔的特性在社交网络、推荐系统、生物医疗等领域应用前景广阔,例如定期对网页进行影响力排序以提升用户的搜索体验、分析庞大的社交网络结构以便精准地为用户推荐服务、通过子图匹配等方式了解蛋白质间的相互作用从而研制更有效的临床医药等。


在上周的 Techo 开发者大会上,腾讯也正式宣布 TubeMQ、Tencent Kona JDK、TBase、TKEStack 四大重点项目的开源。 统计下来,腾讯已经在 GitHub 上开源了 86 个项目,位列 Github 全球公司贡献榜的 Top 10。 据了解,在腾讯内部推开源协同的战略推动下,目前尚未开源的 SuperSQL 等也将会陆续开源。


第三届机器之心「Synced Machine Intelligence Awards」年度奖项评选正在进行中。本次评选设置六大奖项重点关注人工智能公司的产品、应用案例和产业落地情况,基于真实客观的产业表现筛选出最值得关注的企业,为行业带来实际的参考价值。




参选报名日期 2019 年 10 月 23 日~2019 年 12 月 15 日
评审期 2019 年 12 月 16 日~2019 年 12 月 31 日
奖项公布 2020 年 1 月




点击 阅读原文 ,查看更多详情并报名参选。
登录查看更多
5

相关内容

【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
【论文扩展】欧洲语言网格:概述
专知会员服务
6+阅读 · 2020年3月31日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
已删除
将门创投
4+阅读 · 2019年5月8日
车路协同构建“通信+计算”新体系
智能交通技术
11+阅读 · 2019年3月26日
阿里云发布机器学习平台PAI v3.0
雷锋网
12+阅读 · 2019年3月22日
刚刚,阿里开源首个深度学习框架 X-Deep Learning!
阿里技术
4+阅读 · 2018年12月21日
干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山?
阿里巴巴数据库技术
10+阅读 · 2018年12月12日
资源 | 腾讯开源800万中文词的NLP数据集
THU数据派
15+阅读 · 2018年10月29日
消息队列技术点梳理(思维导图版)
架构文摘
3+阅读 · 2018年4月3日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
37+阅读 · 2017年9月12日
大规模知识图谱的构建、推理及应用
人工智能头条
15+阅读 · 2017年8月29日
干货 | 大规模知识图谱的构建、推理及应用
机器学习研究会
11+阅读 · 2017年8月28日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Arxiv
24+阅读 · 2018年10月24日
Arxiv
23+阅读 · 2018年10月1日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2019年5月8日
车路协同构建“通信+计算”新体系
智能交通技术
11+阅读 · 2019年3月26日
阿里云发布机器学习平台PAI v3.0
雷锋网
12+阅读 · 2019年3月22日
刚刚,阿里开源首个深度学习框架 X-Deep Learning!
阿里技术
4+阅读 · 2018年12月21日
干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山?
阿里巴巴数据库技术
10+阅读 · 2018年12月12日
资源 | 腾讯开源800万中文词的NLP数据集
THU数据派
15+阅读 · 2018年10月29日
消息队列技术点梳理(思维导图版)
架构文摘
3+阅读 · 2018年4月3日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
37+阅读 · 2017年9月12日
大规模知识图谱的构建、推理及应用
人工智能头条
15+阅读 · 2017年8月29日
干货 | 大规模知识图谱的构建、推理及应用
机器学习研究会
11+阅读 · 2017年8月28日
Top
微信扫码咨询专知VIP会员