Identifying clusters of similar elements in a set is a common task in data analysis. With the immense growth of data and physical limitations on single processor speed, it is necessary to find efficient parallel algorithms for clustering tasks. In this paper, we study the problem of correlation clustering in bounded arboricity graphs with respect to the Massively Parallel Computation (MPC) model. More specifically, we are given a complete graph where the edges are either positive or negative, indicating whether pairs of vertices are similar or dissimilar. The task is to partition the vertices into clusters with as few disagreements as possible. That is, we want to minimize the number of positive inter-cluster edges and negative intra-cluster edges. Consider an input graph $G$ on $n$ vertices such that the positive edges induce a $\lambda$-arboric graph. Our main result is a 3-approximation ($\textit{in expectation}$) algorithm that runs in $\mathcal{O}(\log \lambda \cdot \textrm{poly}(\log \log n))$ MPC rounds in the $\textit{strongly sublinear memory regime}$. This is obtained by combining structural properties of correlation clustering on bounded arboricity graphs with the insights of Fischer and Noever (SODA '18) on randomized greedy MIS and the $\texttt{PIVOT}$ algorithm of Ailon, Charikar, and Newman (STOC '05). Combined with known graph matching algorithms, our structural property also implies an exact algorithm and algorithms with $\textit{worst case}$ $(1+\epsilon)$-approximation guarantees in the special case of forests, where $\lambda=1$.


翻译:在一组中识别相似元素组是一个常见的数据分析任务。 随着数据的巨大增长和单个处理器速度的物理限制, 有必要为分组任务找到高效的平行算法 。 在本文中, 我们研究在Massolious 平行计算模型( MPC) 中, 绑定 Arrbority 图形中的关联组合问题 。 更具体地说, 我们得到一个完整的图表, 其边缘为正或负, 表明双向是相似还是不同的 。 任务在于将顶端分隔成组, 且差异尽可能少。 也就是说, 我们想要将正数组间边缘和负组内部边缘的数量减少到最小值 。 考虑一个输入图$G$, 这样, 正差会引出一个 $\ lamda$- arboric 图形。 我们的主要结果是3- apolxxxximmation( textitalitrial) 和以 $rmal_ deal=rmalyral 和 MIal ral 美元 的硬值 。

0
下载
关闭预览

相关内容

视觉目标跟踪十年研究进展
专知会员服务
86+阅读 · 2021年3月10日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
129+阅读 · 2020年7月10日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
论文浅尝 | EARL: Joint Entity and Relation Linking for QA over KG
开放知识图谱
6+阅读 · 2018年10月30日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | Improved Neural Relation Detection for KBQA
开放知识图谱
13+阅读 · 2018年1月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年7月8日
Arxiv
0+阅读 · 2021年7月8日
Arxiv
0+阅读 · 2021年7月7日
Arxiv
0+阅读 · 2021年7月7日
Arxiv
0+阅读 · 2021年7月6日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
论文浅尝 | EARL: Joint Entity and Relation Linking for QA over KG
开放知识图谱
6+阅读 · 2018年10月30日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | Improved Neural Relation Detection for KBQA
开放知识图谱
13+阅读 · 2018年1月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员