Graph clustering and community detection are central problems in modern data mining. The increasing need for analyzing billion-scale data calls for faster and more scalable algorithms for these problems. There are certain trade-offs between the quality and speed of such clustering algorithms. In this paper, we design scalable algorithms that achieve high quality when evaluated based on ground truth. We develop a generalized sequential and shared-memory parallel framework based on the LambdaCC objective (introduced by Veldt et al.), which encompasses modularity and correlation clustering. Our framework consists of highly-optimized implementations that scale to large data sets of billions of edges and that obtain high-quality clusters compared to ground-truth data, on both unweighted and weighted graphs. Our empirical evaluation shows that this framework improves the state-of-the-art trade-offs between speed and quality of scalable community detection. For example, on a 30-core machine with two-way hyper-threading, our implementations achieve orders of magnitude speedups over other correlation clustering baselines, and up to 28.44x speedups over our own sequential baselines while maintaining or improving quality.


翻译:图表群集和社区探测是现代数据挖掘的核心问题。 分析10亿尺度数据的需求日益增长,要求对这些问题采用更快、更可扩展的算法。 这种群集算法在质量和速度之间有一定的权衡取舍。 在本文中,我们设计了可扩展的算法,在根据地面真相进行评估时能够达到高质量。 我们根据LambdaCC 目标(由Veldt等人介绍)开发了一个普遍、顺序和共享的平行框架,它包括模块化和相关组合。 我们的框架包括高度优化的实施,在未加权和加权的图表上,将数十亿边缘的大型数据集与地面真相数据相比较,并获得高质量的组群。 我们的经验评估表明,这个框架改进了可扩展社区探测速度和质量之间的最新平衡取舍。 例如,在具有双向超导读功能的30核心机器上,我们的实施实现比其他相关组合基线的量级加速,以及超过我们连续基线的28.44x速度,同时保持或改进质量。

0
下载
关闭预览

相关内容

LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
车辆目标检测
数据挖掘入门与实战
30+阅读 · 2018年3月30日
整合全部顶尖目标检测算法:FAIR开源Detectron
炼数成金订阅号
6+阅读 · 2018年1月25日
论文浅尝 | Improved Neural Relation Detection for KBQA
开放知识图谱
13+阅读 · 2018年1月21日
Arxiv
0+阅读 · 2021年10月4日
Arxiv
13+阅读 · 2021年3月3日
Arxiv
6+阅读 · 2020年3月16日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
dynnode2vec: Scalable Dynamic Network Embedding
Arxiv
14+阅读 · 2018年12月6日
VIP会员
相关VIP内容
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
车辆目标检测
数据挖掘入门与实战
30+阅读 · 2018年3月30日
整合全部顶尖目标检测算法:FAIR开源Detectron
炼数成金订阅号
6+阅读 · 2018年1月25日
论文浅尝 | Improved Neural Relation Detection for KBQA
开放知识图谱
13+阅读 · 2018年1月21日
Top
微信扫码咨询专知VIP会员