【导读】异构网络表示学习Heterogeneous Network Representation Learning是当前自数据挖掘以及其他应用的研究热点,在众多任务中具有重要的应用。近日,UIUC韩家炜等学者发布了异构网络表示学习的综述大全,共15页pdf115篇参考文献,从背景知识到当前代表性HNE模型和应用研究挑战等,是最新可参考绝好的异构网络表示学习模型的文献。

由于现实世界中的对象及其交互通常是多模态和多类型的,所以异构网络被广泛地用作传统同构网络(图)的一个更强大、更现实和更通用的超类。与此同时,表示学习(representation learning,又称嵌入)最近得到了深入的研究,并被证明对各种网络挖掘和分析任务都是有效的。由于已有大量的异构网络嵌入(HNE)算法,但没有专门的调研综述,作为这项工作的第一个贡献,我们率先提供了一个统一的范式,对各种现有的HNE算法的优点进行系统的分类和分析。此外,现有的HNE算法虽然大多被认为是通用的,但通常是在不同的数据集上进行评估。由于HNE在应用上的天然优势,这种间接的比较在很大程度上阻碍了任务性能的改善,特别是考虑到从真实世界的应用数据构建异构网络的各种可能的方法。因此,作为第二项贡献,我们创建了四个基准数据集,这些数据集具有不同来源的尺度、结构、属性/标签可用性等不同属性,以全面评估HNE算法。作为第三个贡献,我们对十种流行的HNE算法的实现进行了细致的重构和修改,并创建了友好的接口,并在多个任务和实验设置上对它们进行了全方位的比较。

1.概述

网络和图形构成了一种规范的、普遍存在的交互对象建模范式,已经引起了各个科学领域的重要研究关注[59、30、24、3、89、87]。然而,现实世界的对象和交互通常是多模态和多类型的(例如,作者、论文、场所和出版物网络中的术语[69,65];基于位置的社交网络中的用户、地点、类别和gps坐标[101,91,94];以及生物医学网络中的基因、蛋白质、疾病和物种[38,14])。为了捕获和利用这种节点和链路的异构性,异构网络被提出并广泛应用于许多真实的网络挖掘场景中,如基于元路径的相似度搜索[70、64、92]、节点分类和聚类[18、20、11]、知识库补全[68、48、103]和推荐[23、106、31]。

与此同时,目前对图数据的研究主要集中在表示学习(图数据嵌入)方面,特别是在神经网络算法的先行者们展示了前所未有的有效而高效的图数据挖掘的经验证据之后[25,4,13]。他们的目标是将图数据(如节点[49、72、26、77、37、28、9、75]、链接[107、1、50、96]和子图[47、93、97、45])转换为嵌入空间中的低维分布向量,在嵌入空间中保留图的拓扑信息(如高阶邻近性[5、76、105、34]和结构[55、102、42、17])。这样的嵌入向量可以被各种下游的机器学习算法直接执行[58,39,10]。

在异构网络与图嵌入的交叉点上,异构网络嵌入(HNE)近年来也得到了较多的研究关注[8、85、108、16、66、67、27、22、90、35、104、57、52、99、7、98、32、83、95、82、41]。由于HNE的应用优势,许多算法在不同的应用领域分别被开发出来,如搜索和推荐[23,63,6,89]。此外,由于知识库(KBs)也属于异构网络的一般范畴,许多KB嵌入算法可以与HNE算法相比较[81、3、40、68、88、15、48、79、60]。

不幸的是,不同的HNE算法是在学术界和工业界完全不同的社区开发的。无论是在概念上还是在实验中,都没有对其进行系统全面的分析。事实上,由于缺乏基准平台(有现成的数据集和基线),研究人员往往倾向于构建自己的数据集,并重新实现一些最流行的(有时是过时的)比较算法,这使得公平的性能评估和明确的改进属性变得极其困难。

只需考虑图1中发布数据小例子。较早的HNE算法如metapath2vec [16])是在作者、论文和场所节点类型为(a)的异构网络上发展起来的,但是可以像(b)那样用大量的术语和主题作为附加节点来丰富论文,这使得基于随机游走的浅嵌入算法效果不佳,而倾向于R-GCN[57]这样的基于邻域聚合的深度图神经网络。此外,还可以进一步加入术语嵌入等节点属性和研究领域等标签,使其只适用于半监督归纳学习算法,这可能会带来更大的偏差[104、82、33、54]。最后,通常很难清楚地将性能收益归因于技术新颖性和数据调整之间的关系。

在这项工作中,我们首先制定了一个统一而灵活的数学范式,概括了所有的HNE算法,便于理解每个模型的关键优点(第2节)。特别地,基于对现有模型(以及可能的未来模型)进行清晰分类和总结的统一分类,我们提出了网络平滑度的一般目标函数,并将所有现有的模型重新组织成统一的范式,同时突出其独特的新颖贡献(第3节)。我们认为该范式将有助于指导未来新型HNE算法的发展,同时促进它们与现有算法的概念对比。

作为第二个贡献,我们通过详尽的数据收集、清理、分析和整理(第4节),特意准备了四个基准的异构网络数据集,具有规模、结构、属性/标签可用性等多种属性。这些不同的数据集,以及一系列不同的网络挖掘任务和评估指标,构成了未来HNE算法的系统而全面的基准资源。

作为第三个贡献,许多现有的HNE算法(包括一些非常流行的算法)要么没有一个灵活的实现(例如,硬编码的节点和边缘类型、固定的元路径集等),要么不能扩展到更大的网络(例如,在训练期间的高内存需求),这给新的研究增加了很多负担(例如,,在正确的重新实现中需要大量的工程工作)。为此,我们选择了10种流行的HNE算法,在这些算法中,我们仔细地重构和扩展了原始作者的实现,并为我们准备好的数据集的插件输入应用了额外的接口(第5节)。基于这些易于使用和有效的实现,我们对算法进行了全面的经验评估,并报告了它们的基准性能。实证结果在提供了与第3节的概念分析相一致的不同模型的优点的同时,也为我们的基准平台的使用提供了范例,以供今后对HNE的研究参考。

本文的其余部分组织如下。第2节首先介绍我们提出的通用HNE范式。随后,第3节对我们调查中的代表性模型进行了概念上的分类和分析。然后,我们在第4节中提供了我们准备好的基准数据集,并进行了深入的分析。在第5节中,我们对10种常用的HNE算法进行了系统而全面的实证研究,对HNE的发展现状进行了评价。第六部分是对未来HNE平台使用和研究的展望。

异构网络示例

算法分类

Proximity-Preserving Methods

如前所述,网络嵌入的一个基本目标是捕获网络拓扑信息。这可以通过在节点之间保留不同类型的邻近性来实现。在HNE中,有两类主要的接近性保护方法:基于随机步法的方法(灵感来自DeepWalk[49])和基于一阶/二阶接近性的方法(灵感来自LINE[72])。

Message-Passing Methods

网络中的每个节点都可以将属性信息表示为特征向量xu。消息传递方法的目标是通过聚合来自u邻居的信息来学习基于xu的节点嵌入eu。在最近的研究中,图神经网络(GNNs)[37]被广泛用于促进这种聚合/消息传递过程。

Relation-Learning方法

异类网络中的每条边都可以看作是一个三元组(u, l, v),由两个节点u, v∈v和一个边缘类型l∈TE(即。,实体和关系,用KG表示)。关系学习方法的目标是学习一个评分函数sl(u, v),该函数对任意三元组求值并输出一个标量来度量该三元组的可接受性。这种思想在KB嵌入中被广泛采用。由于已经有关于KB嵌入算法的调查[81],我们在这里只讨论最流行的方法,并强调它们与HNE的联系。

基准

未来方向

在这项工作中,我们对各种现有的HNE算法进行了全面的调研,并提供了基准数据集和基线实现,以方便今后在这方面的研究。尽管HNE已经在各种下游任务中表现出了强大的性能,但它仍处于起步阶段,面临着许多尚未解决的挑战。为了总结这项工作并启发未来的研究,我们现在简要地讨论一下当前HNE的局限性和几个可能值得研究的具体方向。

超越同质性。如式(1)所述,目前的HNE算法主要关注网络同质性作用。由于最近对同构网络的研究,研究位置和结构嵌入的组合,探索如何将这种设计原则和范式推广到HNE将是很有趣的。特别是在异构网络中,节点的相对位置和结构角色都可以在不同的元路径或元图下测量,这自然更具有信息性和多样性。然而,这样的考虑也带来了更困难的计算挑战。

超越准确性。大多数,如果不是全部,现有的研究主要集中在对不同的下游任务的准确性。进一步研究HNE的效率和可扩展性(用于大规模网络)、时间适应性(用于动态演化网络)、鲁棒性(用于对抗攻击)、可解释性、不确定性、公平性等将是非常有趣的。

超越节点嵌入。图级和子图级嵌入在同构网络上得到了广泛的研究,但在异构网络上却很少有研究。虽然诸如HIN2Vec[22]等现有的工作都在研究元路径的嵌入以改进节点的嵌入,但是图和子图级嵌入在异构网络环境中的直接应用仍然处于萌芽状态。

回顾KB嵌入。KB嵌入与其他HNE类型的区别主要在于节点和链接类型的数量不同。直接将KB嵌入到异构网络中不能考虑具有丰富语义的元路径,而将HNE直接应用到KB中由于元路径的数量呈指数增长而不现实。然而,研究这两组方法(以及两种类型的数据)之间的交集仍然很有趣。例如,我们如何将异构网络上的元路径和HNE在KB上嵌入转换的思想与更多的语义感知转换结合起来?我们如何设计基于截断随机游走的方法来包含高阶关系的知识库嵌入?

异构上下文建模。异构网络主要模拟不同类型的节点和链接。然而,现在的网络常常与丰富的内容相关联,这些内容提供了节点、链接和子网的上下文。因此,如何通过多模态内容和结构的集成来对多方面环境下的异构交互进行建模可能是一个具有挑战性但值得研究的领域。

理解局限性。虽然HNE(以及许多神经表示学习模型)已经在各个领域显示出了强大的性能,但值得了解其潜在的局限性。例如,与传统的网络挖掘方法(例如,路径计数、子图匹配、非神经或线性传播)相比,现代HNE算法何时能更好地工作?我们怎样才能把两个世界的优点结合起来呢?此外,虽然对同构网络数据的神经网络背后的数学机制(如平滑、低通滤波、不变和等变变换)进行了深入的研究,通过统一现有的HNE模型,本工作也旨在激发对HNE的能力和局限性的进一步理论研究。

成为VIP会员查看完整内容
96

相关内容

在计算机网络中,异构网络是一种连接计算机和其他设备的网络,其中操作系统和协议有显著差异。例如,将基于微软Windows和Linux的个人计算机与苹果Macintosh计算机连接起来的局域网(LANs)是异构的。异构网络也被用于使用不同接入技术的无线网络中。例如,通过无线局域网提供服务并在切换到蜂窝网络时能够维持服务的无线网络称为无线异构网络。
最新《动态网络嵌入》综述论文,25页pdf
专知会员服务
136+阅读 · 2020年6月17日
专知会员服务
37+阅读 · 2020年6月7日
KDD 2019论文解读:异构信息网络上的对抗生成学习
云栖社区
22+阅读 · 2019年8月21日
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
Arxiv
5+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2018年3月6日
VIP会员
相关VIP内容
最新《动态网络嵌入》综述论文,25页pdf
专知会员服务
136+阅读 · 2020年6月17日
专知会员服务
37+阅读 · 2020年6月7日
微信扫码咨询专知VIP会员