Since network data commonly consists of observations on a single large network, researchers often partition the network into clusters in order to apply cluster-robust inference methods. All existing such methods require clusters to be asymptotically independent. We prove under mild conditions that, in order for this requirement to hold for network-dependent data, it is necessary and sufficient for clusters to have low conductance, the ratio of edge boundary size to volume. This yields a simple measure of cluster quality. We find in simulations that, when clusters have low conductance, cluster-robust methods outperform HAC estimators in terms of size control. However, for important classes of networks lacking low-conductance clusters, the methods can exhibit substantial size distortion. To assess the existence of low-conductance clusters and construct them, we draw on results in spectral graph theory that connect conductance to the spectrum of the graph Laplacian. Based on these results, we propose to use the spectrum to determine the number of low-conductance clusters and spectral clustering to construct them.


翻译:由于网络数据通常包含对单一大型网络的观测,研究人员往往将网络分成组群,以便应用集束-紫外线推断方法。所有现有方法都要求各组群无差别地独立。我们证明,在温和的条件下,为了保持对依赖网络的数据的要求,集群组群具有低导力、边缘边界大小与体积之比,是必要和充分的。这产生一个简单的组群质量计量。我们从模拟中发现,当组群的导力低、集束-紫外线方法在大小控制方面优于HAC估测器。然而,对于缺乏低导力组群的重要网络类别,这些方法可能显示出显著的体积扭曲。为了评估低导力组群的存在并构建这些数据,我们利用光谱图理论的结果,将导力与Laplacian图的频谱联系起来。基于这些结果,我们提议利用频谱来确定低导团和光谱组群集的数量,以构建它们。

0
下载
关闭预览

相关内容

【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
76+阅读 · 2021年1月30日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
38+阅读 · 2020年7月27日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
自动结构变分推理,Automatic structured variational inference
专知会员服务
38+阅读 · 2020年2月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
CCF推荐 | 国际会议信息10条
Call4Papers
7+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
将门创投
4+阅读 · 2017年12月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
Arxiv
3+阅读 · 2020年2月5日
Arxiv
4+阅读 · 2018年4月26日
Arxiv
3+阅读 · 2018年1月10日
VIP会员
相关资讯
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
CCF推荐 | 国际会议信息10条
Call4Papers
7+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
将门创投
4+阅读 · 2017年12月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
Top
微信扫码咨询专知VIP会员