网络数据团队大图分析技术获得DEXA 2019最佳论文奖

2019 年 9 月 3 日 中国科学院网络数据重点实验室



      2019年8月26日至29日,中科院计算所网络数据重点实验室郑天祺博士参加了在奥地利林茨召开的第30届数据库与专家系统及应用国际会议(The 30th International Conference on Database and Expert Systems Applications,以下简称DEXA),向大会做了题为“SilverChunk:An Efficient In-Memory Parallel Graph Processing System”的口头报告,详细介绍了网络数据实验室在大图分析、并行化处理方面的研究成果,该论文被DEXA大会评为本年度Best Paper Award,并受邀投稿至由Springer出版社出版的期刊Transactions on Large-Scale Data- and Knowledge-Centered Systems(简称TLDKS)。



      DEXA国际会议自1990年创办起,至今已举办30届,已成为数据库、信息及知识发现领域内有重要影响力的国际学术会议。会议保持高的学术水准,是我国计算机学会认定的高水平国际学术会议。2019年度会议共收到投稿300余篇,录取论文66篇,论文录用率在20%左右。郑天祺博士的论文被评为本届会议的唯一一篇最佳论文。


      值得一提的是,该论文不但是一项学术研究成果,而且已经应用到了实际应用系统中。网络数据实验室应用该成果自主研发了面向分析的高性能图数据库系统软件SQLGraph,它具有两方面的特点:一是将传统的关系型数据分析与图计算分析融为一体,可以在一条扩展语法的SQL语句中完成关系型数据分析和图分析的无缝结合;二是支持任意类型节点、边的图构建,且节点和边都可以带任意属性。SQLGraph将传统关系型数据库的SQL分析和图分析紧密的结合在一起,可使用类SQL进行交互式分析。支持多元数据的导入,支持属性图、无向图、异构图,并支持图的可视化交互式分析。不仅可以为知识图谱等分析应用提供底层计算基础,也可以为传统关系数据库中的隐含关联关系挖掘提供强大支撑。


      SQLGraph的性能极其强悍。基于块的内存压缩存储结构不仅成功解决了图结构存储的稀疏性问题,也实现了CPU友好的访存设计,极大提升了数据局部性和CPU利用率。SQLGraph单机支持十亿级以上规模的图计算和挖掘,内置了经典的图分析算法,如PageRank、BFS、连通子图、最短路径等。SQLGrpah不仅在与学术界STOA图计算系统对比中处于领先水平,在与工业界和开源社区包括Neo4j、Spark GraphX、TigerGraph、Baidu HugeGraph、ArangoDB、Amazon Neptune、JanusGraph等系统在公开数据集上的对比结果显示,在导入、查询、计算等方面不仅占用资源最少且在性能方面比其他系统提高1-4个数量级。SQLGraph系统已在实验室的多个实际项目中投入使用,并成为我们大图分析方向的重要系统产品。


      图计算系统是当前大数据系统研究的一个热点。其主要原因有两方面,一是图结构是当前最灵活的数据表达方式,基于图结构可以挖掘出数据中隐含的关联关系和模式,在金融、电信、安全等领域有着广泛的需求;二是现实场景中的图数据结构具有很强的稀疏性,而对数据的访问又具有很强的随机性,因此计算机经典体系结构设计中的时间和空间局部性假设在图计算系统中都不再成立。因此如何面向大规模图数据充分利用有限的存储和计算资源,一直都是图计算系统研究所面临的挑战。      

      未来网络数据实验室将继续围绕大图高效计算、图挖掘等方向开展更深入的研究,并继续将最新的研究成果应用于系统实践。相信不久的将来,实验室会涌现越来越多的系统成果,助力实验室的未来大数据系统软件栈的布局。

登录查看更多
8

相关内容

DEXA会议是一个展示数据库、信息和知识系统最新研究活动的年度国际会议。DEXA提供了一个展示研究成果和审查该领域先进应用的论坛。会议及其相关的研讨会为开发人员、科学家和用户提供了广泛讨论数据库、信息和知识系统中的需求、问题和解决方案的机会。 官网地址:http://dblp.uni-trier.de/db/conf/dexa/
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【CCL 2019】2019信息检索趋势,山东大学教授任昭春博士
专知会员服务
29+阅读 · 2019年11月12日
六篇 CIKM 2019 必读的【图神经网络(GNN)】长文论文
专知会员服务
37+阅读 · 2019年11月3日
俄罗斯Yandex公司ClickHouse团队访问计算所
中国科学院网络数据重点实验室
13+阅读 · 2019年6月12日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
论文 | CIKM2017 最佳论文鉴赏
机器学习研究会
4+阅读 · 2017年12月19日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
Arxiv
6+阅读 · 2019年9月25日
VIP会员
Top
微信扫码咨询专知VIP会员