图数据非常强大,因为它能够为对象之间的任意关系建模,并在生物信息学、交通网络、科学协作、万维网和社交网络等领域的一系列现实世界应用中遇到它。图数据挖掘用于从图数据中发现有用的信息和知识。节点、链接和半结构形式的复杂性对节点分类、链接预测、图分类等计算任务提出了挑战。在这种背景下,各种先进的技术,包括图嵌入和图神经网络,最近被提出来提高图数据挖掘的性能。这本书提供了图数据挖掘方法的最先新综述。本文针对当前的一个热门话题——图数据挖掘的安全性,提出了一系列的检测方法来识别图数据中的敌对样本。此外,还向读者介绍了图增广和子图网络,以进一步增强模型,即提高模型的准确性和鲁棒性。最后,本书描述了这些先进技术在各种场景中的应用,如交通网络、社交和技术网络和区块链。
万物相互作用,我们美丽的世界出现了。许多真实世界的系统,无论是自然的还是人工的,都更自然地表示为图形/网络,而不是欧氏空间中的坐标,以捕捉它们的拓扑属性。在生物学中,蛋白质相互调节,这种生理上的相互作用构成了所谓的生物体的相互作用组学;神经元相互连接,处理大脑中的信号,导致了智能的出现;物种之间相互依存,形成了复杂的生态系统。此外,现代交通系统连接了不同国家的不同城市,极大地便利了我们的旅行,使整个世界成为一个真正的地球村。如今,随着我们进入网络空间,网络似乎正在崛起。人们紧密联系在一起,通过Facebook、微信、Twitter、微博等社交媒体平台分享他们的观点和个人兴趣。我们可以使用诸如谷歌、百度和Yahoo等搜索引擎来搜索我们感兴趣的内容,这些系统的核心是一个巨大的网页网络。我们还可以通过电子银行或基于区块链的平台(如以太坊)轻松转账。此外,一些强大的数据挖掘或人工智能技术,如知识图和深度神经网络,也是网络!虽然这些网络促进了个人之间的信息交流,使我们的生活比以前容易得多,但它们也可能促进病毒的传播,导致隐私泄露,例如,特定类型的关系可以推断仅仅基于个人的社交网络[1]。因此,有必要和迫切地研究方法来更好地了解这些网络的拓扑结构,从而在一定程度上预测并进一步影响它们的演化。
幸运的是,图论作为数学的一个分支,自1736[2]年欧拉创造性地研究Königsberg的七座桥以来,已经得到了很好的建立。在这个大数据时代,越来越多的系统被描述为网络,并发布相应的捕获其结构的图数据进行研究。这些图吸引了众多不同领域的研究者贡献他们的才华,通过提出一系列结构性质[3],从微观(节点和链接)、中观(motif和社区)到宏观(整个网络)的观点来观察和进一步测量它们。在行业中,许多著名的搜索引擎和推荐系统本质上都是根据节点在相应网络中的结构重要性对节点进行排序,例如著名的PageRank[4]和协同过滤算法[5]。另一方面,在学术界,Strogatz等人[6]利用小世界网络的短平均距离和大平均聚类系数来刻画小世界网络,Barabási等人[7]用幂律度分布定义了无标度网络。这些研究引发了复杂网络的发展。随后,人们提出了各种不同的数学模型,对流行病和同步等不同类型的动力学进行了仔细的模拟和分析。最近,图嵌入技术被提出,如deepwalk[9]和node2vec[10],在网络空间和欧几里得空间之间架起桥梁 ;因此,可以采用机器学习算法来自动分析图。很快,深度学习框架,如图卷积网络(GCN)[11,12]被提出,以进一步促进网络的分析。
在这本书中,我们主要关注图表数据上典型的监督学习。特别地,前三章介绍了最先进的图数据挖掘算法,包括节点分类、链接预测和图分类,然后一章介绍了图增强,以进一步增强现有的图数据挖掘算法。第5章和第6章分别分析了这些算法在对抗攻击下的脆弱性以及提高其鲁棒性的方法。请注意,在第5章中,我们还将社区检测的漏洞分析为无监督学习,以进行全面综述。