本文首次对深度图聚类进行了全面的研究

图聚类是一项基本且具有挑战性的任务,它旨在将图中的节点划分为几个不同的簇。近年来,越来越多的人提出了深度图聚类方法,并取得了良好的性能。但是,相关的综述论文比较缺乏,对这方面的研究进行总结迫在眉睫。**基于此动机,本文首次对深度图聚类进行了全面的研究。**首先,详细介绍了深度图聚类的定义和重要的基线方法。并根据图类型、网络架构、学习范式和聚类方法四个标准对深度图聚类方法进行了分类。此外,通过对现有工作的仔细分析,从五个角度总结了挑战和机遇。最后介绍了深度图聚类在四个领域的应用。值得一提的是,在GitHub上有一系列最先进的深度图聚类方法,包括论文、代码和数据集。我们希望这项工作将作为一个快速指南,并帮助研究人员克服这一充满活力的领域的挑战。

https://www.zhuanzhi.ai/paper/3170600fe1ddff3ffa9f2155e397cbe5

1. 引言

图聚类是一项基本且具有挑战性的任务,它以无监督的方式将节点分离到不同的组中。近年来,得益于深度图神经网络(GNNs)强大的图表示能力[Kipf and Welling, 2017; Velickovi ˇ c´ et al., 2017; Kipf and Welling, 2016],深度图聚类已经取得了卓有成效的进展。然而,与深度聚类区域不同[Zhou et al., 2022; Ren et al., 2022; Aljalbout et al., 2018; Min et al., 2018],深度图聚类的研究论文很少。为了辅助研究人员回顾、总结和规划未来,对深度图聚类进行了全面综述。在本文中,我们首先介绍这个快速发展领域的一般管道和重要基线。然后,将详细描述分类法、挑战和应用。

首先,深度图聚类的一般流程如图1所示。对编码神经网络F进行自监督训练,并将节点嵌入到潜空间中。然后,设计的聚类方法C将节点嵌入Z分离成几个不相交的聚类。详细的公式和重要的基线可在第2.1节中找到。

如图2所示,我们贡献了一个结构化的分类法来提供该领域的广泛概述,它从四个角度对现有的工作进行了分类:图类型、网络架构、学习范式和聚类方法。更具体地说,输入图类型可以分为四种不同的类别:纯结构图、属性图、异构图和动态图。分析了各图类型的特点,介绍了相应的处理方法。此外,在网络架构上,将现有的深度图聚类方法分为基于多层感知器(MLP)的方法、基于图神经网络(GNN)的方法和混合方法。每种类型的优点和缺点都进行了仔细的讨论。此外,学习范式还分为重构范式、对抗性范式、对比范式和混合型范式。对于每个学习范式,都详细总结了一般的管道。最后将聚类方法分为传统聚类方法和神经聚类方法。本文简单分析了传统聚类的优缺点,深入总结了神经聚类的技术发展历程。我们将在第3节中详细说明分类法。

尽管取得了显著的进步,但这个快速发展的领域仍然充满了一些关键的挑战。因此,本节总结了图3中深度图聚类的挑战。具体而言,主要挑战包括图数据质量、稳定性、可扩展性、可区分性以及聚类数目未知等问题。详细的分析和潜在的解决方案将在第4节中提供。

此外,深度图聚类方法已成功应用于许多其他领域,包括社会网络分析、计算机视觉、自然语言处理、生物信息学等。详细信息在第5节中总结。本文的主要贡献如下。 为了帮助研究人员回顾、总结和展望未来,提出了第一篇关于深度图聚类的综合调查论文。 在图类型、网络架构、学习范式和聚类方法的基础上,对最近的深度图聚类方法进行了分类。 从五个方面总结了深度图聚类领域面临的困难挑战。并通过细致的分析,提出了可能的技术解决方案。 最新的深度图聚类方法集合,包括论文、代码和数据集,在GitHub存储库中共享。

2. 深度图聚类

图4总结了深度图聚类领域的重要基线。这些论文已在数据挖掘、人工智能、机器学习、计算机视觉、多媒体等领域有影响力的国际会议或高质量期刊上发表。此外,在本次综述结束之前,这些文章每年至少被引用10次,相应的代码是可用的,并且是可靠的。接下来,我们将详细介绍这些重要的方法。

3. 深度图聚类方法

在本节中,我们从以下几个方面介绍了深度图聚类方法的分类。

图类型

如图5所示,现有深度图聚类方法的输入图分为纯结构图、属性图、异构图和动态图四种类型。这些图类型的定义表述如下。

网络体系结构

就网络架构而言,主流的深度图聚类方法大致可分为三类:基于MLP的方法、基于GNN的方法和混合方法。

3.3 学习范式

基于学习范式,调研方法包括重构方法、对抗方法、对比方法和混合方法四大类。以属性图输入为例,对深度图聚类方法的学习范式进行了如下阐述。

3.4 聚类方法

深度图聚类中的聚类方法旨在以无监督的方式将学习到的节点嵌入到不同的聚类中。它们可以分为两类:传统聚类和神经聚类。

4. 应用

深度图聚类由于其强大的数据划分能力,已被应用到现实世界的不同应用领域,如社会网络分析、计算机视觉、自然语言处理、生物信息学等。如图13所示,深度图聚类的具体应用包括人脸分析[Wang et al., 2019b;Wang等,2022b],异常检测[Ahmed等,2021;Ma等,2021],共显著性检测[Zhang等,2020a],文档挖掘[Chiu等,2020],语音分离[Qin等,2020],社区检测[Cavallari等,2017;Rozemberczki等人,2019;屠等,2018;Liu等,2020],分子挖掘[Grunig等,2022;Xia et al., 2022c],宏基因组bin [Xue et al., 2022],单细胞RNA测序[Yu et al., 2022b]等。

成为VIP会员查看完整内容
42

相关内容

TKDE21 | 网络社团发现新综述:从统计建模到深度学习
专知会员服务
27+阅读 · 2021年10月27日
【NUS】深度长尾学习综述,20页pdf172篇文献
专知会员服务
58+阅读 · 2021年10月14日
专知会员服务
37+阅读 · 2020年6月7日
2022最新图嵌入模型综述
机器学习与推荐算法
3+阅读 · 2022年1月18日
图嵌入模型综述
专知
3+阅读 · 2022年1月17日
多模态视觉语言表征学习研究综述
专知
25+阅读 · 2020年12月3日
CNN已老,GNN来了!清华大学孙茂松组一文综述GNN
全球人工智能
16+阅读 · 2018年12月26日
图神经网络综述:模型与应用
PaperWeekly
194+阅读 · 2018年12月26日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
14+阅读 · 2021年8月5日
Arxiv
27+阅读 · 2020年12月24日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
25+阅读 · 2018年1月24日
VIP会员
相关VIP内容
TKDE21 | 网络社团发现新综述:从统计建模到深度学习
专知会员服务
27+阅读 · 2021年10月27日
【NUS】深度长尾学习综述,20页pdf172篇文献
专知会员服务
58+阅读 · 2021年10月14日
专知会员服务
37+阅读 · 2020年6月7日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
相关论文
Arxiv
17+阅读 · 2022年2月23日
Arxiv
14+阅读 · 2021年8月5日
Arxiv
27+阅读 · 2020年12月24日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
25+阅读 · 2018年1月24日
微信扫码咨询专知VIP会员