Given a user-specified minimum degree threshold $\gamma$, a $\gamma$-quasi-clique is a subgraph $g=(V_g,E_g)$ where each vertex $v\in V_g$ connects to at least $\gamma$ fraction of the other vertices (i.e., $\lceil \gamma\cdot(|V_g|-1)\rceil$ vertices) in $g$. Quasi-clique is one of the most natural definitions for dense structures useful in finding communities in social networks and discovering significant biomolecule structures and pathways. However, mining maximal quasi-cliques is notoriously expensive. In this paper, we design parallel algorithms for mining maximal quasi-cliques on G-thinker, a recent distributed framework targeting divide-and-conquer graph mining algorithms that decomposes the mining into compute-intensive tasks to fully utilize CPU cores. However, we found that directly using G-thinker results in the straggler problem due to (i) the drastic load imbalance among different tasks and (ii) the difficulty of predicting the task running time and the time growth with task-subgraph size. We address these challenges by redesigning G-thinker's execution engine to prioritize long-running tasks for mining, and by utilizing a novel timeout strategy to effectively decompose the mining workloads of long-running tasks to improve load balancing. While this system redesign applies to many other expensive dense subgraph mining problems, this paper verifies the idea by adapting the state-of-the-art quasi-clique algorithm, Quick, to our redesigned G-thinker. We improve Quick by integrating new pruning rules, and fixing some missed boundary cases that could lead to missed results. Extensive experiments verify that our new solution scales well with the number of CPU cores, achieving 201$\times$ runtime speedup when mining a graph with 3.77M vertices and 16.5M edges in a 16-node cluster.


翻译:根据用户指定的最小度阈值 $\ gamma美元, 一个 $\ gamma$- quasi clique 是一个基底结构最自然的定义 $g = (V_ g, E_ g) $g = (g) $g), 其中每个顶端 $v\ in V_ g$ 美元 连接到至少 $gamma$ 其它顶端的一小部分( 即$\ lceil\ gamma\ cdot (@V_ g ⁇ ) +rcelice $ g$) 。 Qasia- clodial- clodical clocal is a commission to commission to the load- dislational- dividate commission la la la commissional- commissional- we flickeral- lemental- disal- lax the lax lader- lader- liger liger- liger liger lader lax lax the lax lax lax lax lax lax lax i), 我们的最近发行平流平流平流平流流流流流流流流流流流算算算算算算算算算算算算算算算算算算算算算算算算算算算算算算算算算算算算算算算。

0
下载
关闭预览

相关内容

因果图,Causal Graphs,52页ppt
专知会员服务
250+阅读 · 2020年4月19日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
105+阅读 · 2020年3月22日
生成式对抗网络GAN异常检测
专知会员服务
118+阅读 · 2019年10月13日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
160+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Nature 一周论文导读 | 2018 年 3 月 29 日
科研圈
12+阅读 · 2018年4月7日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2020年11月30日
Arxiv
0+阅读 · 2020年11月30日
Arxiv
0+阅读 · 2020年11月25日
VIP会员
相关VIP内容
因果图,Causal Graphs,52页ppt
专知会员服务
250+阅读 · 2020年4月19日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
105+阅读 · 2020年3月22日
生成式对抗网络GAN异常检测
专知会员服务
118+阅读 · 2019年10月13日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
160+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Nature 一周论文导读 | 2018 年 3 月 29 日
科研圈
12+阅读 · 2018年4月7日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员