|
DEXA国际会议自1990年创办起,至今已举办30届,已成为数据库、信息及知识发现领域内有重要影响力的国际学术会议。会议保持高的学术水准,是我国计算机学会认定的高水平国际学术会议。2019年度会议共收到投稿300余篇,录取论文66篇,论文录用率在20%左右。郑天祺博士的论文被评为本届会议的唯一一篇最佳论文。
值得一提的是,该论文不但是一项学术研究成果,而且已经应用到了实际应用系统中。网络数据实验室应用该成果自主研发了面向分析的高性能图数据库系统软件SQLGraph,它具有两方面的特点:一是将传统的关系型数据分析与图计算分析融为一体,可以在一条扩展语法的SQL语句中完成关系型数据分析和图分析的无缝结合;二是支持任意类型节点、边的图构建,且节点和边都可以带任意属性。SQLGraph将传统关系型数据库的SQL分析和图分析紧密的结合在一起,可使用类SQL进行交互式分析。支持多元数据的导入,支持属性图、无向图、异构图,并支持图的可视化交互式分析。不仅可以为知识图谱等分析应用提供底层计算基础,也可以为传统关系数据库中的隐含关联关系挖掘提供强大支撑。
SQLGraph的性能极其强悍。基于块的内存压缩存储结构不仅成功解决了图结构存储的稀疏性问题,也实现了CPU友好的访存设计,极大提升了数据局部性和CPU利用率。SQLGraph单机支持十亿级以上规模的图计算和挖掘,内置了经典的图分析算法,如PageRank、BFS、连通子图、最短路径等。SQLGrpah不仅在与学术界STOA图计算系统对比中处于领先水平,在与工业界和开源社区包括Neo4j、Spark GraphX、TigerGraph、Baidu HugeGraph、ArangoDB、Amazon Neptune、JanusGraph等系统在公开数据集上的对比结果显示,在导入、查询、计算等方面不仅占用资源最少且在性能方面比其他系统提高1-4个数量级。SQLGraph系统已在实验室的多个实际项目中投入使用,并成为我们大图分析方向的重要系统产品。
图计算系统是当前大数据系统研究的一个热点。其主要原因有两方面,一是图结构是当前最灵活的数据表达方式,基于图结构可以挖掘出数据中隐含的关联关系和模式,在金融、电信、安全等领域有着广泛的需求;二是现实场景中的图数据结构具有很强的稀疏性,而对数据的访问又具有很强的随机性,因此计算机经典体系结构设计中的时间和空间局部性假设在图计算系统中都不再成立。因此如何面向大规模图数据充分利用有限的存储和计算资源,一直都是图计算系统研究所面临的挑战。
未来网络数据实验室将继续围绕大图高效计算、图挖掘等方向开展更深入的研究,并继续将最新的研究成果应用于系统实践。相信不久的将来,实验室会涌现越来越多的系统成果,助力实验室的未来大数据系统软件栈的布局。