In the graph clustering problem with a planted solution, the input is a graph on $n$ vertices partitioned into $k$ clusters, and the task is to infer the clusters from graph structure. A standard assumption is that clusters induce well-connected subgraphs (i.e. $Ω(1)$-expanders), and form $ε$-sparse cuts. Such a graph defines the clustering uniquely up to $\approx ε$ misclassification rate, and efficient algorithms for achieving this rate are known. While this vanilla version of graph clustering is well studied, in practice, vertices of the graph are typically equipped with labels that provide additional information on cluster ids of the vertices. For example, each vertex could have a cluster label that is corrupted independently with probability $δ$. Using only one of the two sources of information leads to misclassification rate $\min\{ε, δ\}$, but can they be combined to achieve a rate of $\approx εδ$? In this paper, we give an affirmative answer to this question and present a sublinear-time algorithm in the number of vertices $n$. Our key algorithmic insight is a new observation on ``spectrally ambiguous'' vertices in a well-clusterable graph. While our sublinear-time classifier achieves the nearly optimal $\approx \widetilde O(εδ)$ misclassification rate, the approximate clusters that it outputs do not necessarily induce expanders in the graph $G$. In our second result, we give a polynomial-time algorithm that reweights edges of the original $(k, ε, Ω(1))$-clusterable graph to transform it into a $(k, \widetilde O(εδ), Ω(1))$-clusterable one (for constant $k$), improving sparsity of cuts nearly optimally and preserving expansion properties of the communities - an algorithm for refining community structure of the input graph.


翻译:在具有植入解的图聚类问题中,输入是一个包含 $n$ 个顶点的图,这些顶点被划分为 $k$ 个簇,任务是从图结构推断出这些簇。一个标准假设是簇诱导出连通性良好的子图(即 $Ω(1)$-扩展子),并形成 $ε$-稀疏割。这样的图以 $\approx ε$ 的误分类率唯一地定义了聚类,并且已知有高效算法可实现此率。虽然图聚类的这个基本版本已得到充分研究,但在实践中,图的顶点通常带有标签,这些标签提供了关于顶点簇标识的额外信息。例如,每个顶点可能有一个簇标签,该标签以概率 $δ$ 独立地被破坏。仅使用两种信息源之一会导致 $\min\{ε, δ\}$ 的误分类率,但能否将它们结合起来实现 $\approx εδ$ 的误分类率?在本文中,我们对此问题给出了肯定答案,并提出了一种在顶点数 $n$ 上为亚线性时间的算法。我们关键的算法洞察是对一个良好可聚类图中“谱模糊”顶点的新观察。虽然我们的亚线性时间分类器实现了近乎最优的 $\approx \widetilde O(εδ)$ 误分类率,但其输出的近似簇不一定在图 $G$ 中诱导出扩展子。在我们的第二个结果中,我们给出了一种多项式时间算法,该算法对原始 $(k, ε, Ω(1))$-可聚类图的边进行重新加权,将其转换为 $(k, \widetilde O(εδ), Ω(1))$-可聚类图(对于常数 $k$),近乎最优地改善了割的稀疏性,并保持了社区的扩展特性——这是一种用于精化输入图社区结构的算法。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
NeurIPS 2021 | 寻找用于变分布泛化的隐式因果因子
专知会员服务
17+阅读 · 2021年12月7日
专知会员服务
50+阅读 · 2021年6月2日
专知会员服务
30+阅读 · 2021年5月6日
专知会员服务
43+阅读 · 2020年7月7日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
NeurIPS 2021 | 寻找用于变分布泛化的隐式因果因子
专知会员服务
17+阅读 · 2021年12月7日
专知会员服务
50+阅读 · 2021年6月2日
专知会员服务
30+阅读 · 2021年5月6日
专知会员服务
43+阅读 · 2020年7月7日
相关资讯
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员