1 论文简介
异质图(Heterogeneous Graph, HG)也称为异质信息网络(Heterogeneous Information Network, HIN),在现实世界中已经无处不在。异质图嵌入(Heterogeneous Graph Embedding, HGE),旨在在低维的空间中学习节点表示,同时保留异质结构和语义用于下游任务(例如,节点/图分类,节点聚类,链接预测),在近年来受到了广泛的关注。在综述中,我们对异质图嵌入的方法和技术的最新进展进行了全面回顾,探索了异质图嵌入的问题和挑战,并预测了该领域的未来研究方向。
该论文的主要贡献如下:
2 独特挑战
复杂结构:同质图中的结构可以被认为是一阶,二阶甚至更高阶的信息,所有的结构都是定义明确并具有良好直觉的。但是在异质图中,结构将根据选择的关系而发生巨大的变化。以学术网络为例,一篇论文的邻居可以是具有writing关系的作者,也可以是具有contain关系的关键词。更困难的是,这些关系的组合(可以被认为是异质图中的一个高阶结构)将产生更加复杂的结构。因此,如何有效且有效率地保持这些复杂的结构,是异构图嵌入中的一个巨大挑战,目前已经有一些工作探索了元路径结构[1]和元图结构[2]。
异质属性:由于同质图中的节点和边具有相同的类型,所以节点或边属性的每个维度都具有相同的含义。在这种情况下,节点可以直接融合其邻居的属性。然而,在异质图中,不同类型的节点和边的属性可能具有不同的含义[3], [4]。因此,如何克服属性的异质性,有效地融合邻居的属性成为异质图嵌入的又一大挑战。
任务依赖:异质图与实际应用密切相关,但有许多实际问题尚未解决。例如,在实际应用中,构建合适的异质图可能需要足够的领域知识。此外,元路径或者元图被广泛用于捕获异质图的结构,然而,与同质图中结构(例如一阶和二阶结构)被很好的定义不同,元路径选择也可能需要先验知识。此外,为了更好地方便实际应用,我们通常需要在异质图的嵌入过程中,仔细地编码辅助信息(如节点属性)[3],[4]或更高级的领域知识[5],[6]。
3 方法归纳
该论文首先从使用的信息这一角度对现有的异质图嵌入方法进行总结归纳,具体如下:
结构保持的异质图嵌入:主要集中于捕捉和保持异质的结构和语义,如元路径和元图。 信息辅助的异质图嵌入:在嵌入过程中加入了更多的非结构信息,如节点或者边属性,从而更有效地利用邻域信息。 应用导向的异质图嵌入:进一步探讨了异构图嵌入方法的应用(即在异质图上学习面向特定应用的节点嵌入)。 动态异质图嵌入:捕捉异质图的演化过程,并在节点嵌入中保留时序信息。
4 技术总结
我们从技术的角度对异质图嵌入中广泛使用的技术(或模型)进行了总结,一般分为浅层模型和深层模型两大类。
浅层模型(Shallow Model) 基于随机游走的方法 基于分解的方法 深度模型(Deep Model) 基于信息传递的方法 基于编码器-解码器的方法 基于对抗的方法 图片
5 实际应用
电子商务:电子商务,如淘宝网和亚马逊,是通过在线平台进行产品电子交易的服务。电子商务平台涉及到大规模的异质对象和交互,如用户、物品和商店等。异质图可以自然地对这些复杂的数据进行建模。异质图嵌入已经被应用到电子商务中的各种重要服务和任务中,例如商品/意图推荐、用户分析(User Profiling)和欺诈者检测。 网络安全:安全一直是社会发展的最大威胁之一,它造成无数财产和生命损失。由于安全系统通常涉及多个异质实体和复杂的结构,因此,最近的研究人员更加关注使用异质图嵌入方法来广泛检测安全区域中的异常值,例如恶意软件检测,地下论坛中的关键参与者标识,毒品贩运者标识等。 电子健康记录(Electronic Health Records),乘车平台上的实时事件预测等。
6 未来工作
保持异质图结构和性质:异质图嵌入的成功在于保留异质图结构和性质。但是对结构的探索是远远不够,比如选择最合适的元路径仍然非常具有挑战性;此外对于新的结构,比如网络模式(Motif)或者网络主题(Schema),也是值得探索的。除了网络结构以外,现有模型还没有充分考虑某些有用的性质,比如动态性和不确定性。 深度学习应用于异质图数据:在异质图的深度学习领域,一个重要的问题是同质图神经网络和异质图神经网络的本质区别是什么?理论上的分析可能会给深度学习在异质图上的应用带来突破。此外,从模型的角度考虑,异质图上的自监督学习(Self-supervised Learning)和预训练(Pre-training)也是重要的研究方向。 让异质图嵌入可信:除了异质图的性质和技术外,我们还关注异质图嵌入中的道德问题,例如公平性,鲁棒性和可解释性。考虑到大多数方法都是黑匣子,因此使异质图嵌入可靠是一项重要的未来工作。 实际应用中的技术场景:异质图嵌入已经在电子商务和网络安全等领域显示出很好的性能,未来在其他领域探索更多的异质图嵌入能力将具有巨大潜力,比如软件工程、生物医药等。此外,由于异质图神经网络的复杂度相对较高,并且技术难以并行化,因此,在各种实际应用中成功部署技术,同时解决可伸缩性和高效率挑战将是非常重要的。 [1] Y. Dong, N. V. Chawla, and A. Swami, “metapath2vec: Scalable representation learning for heterogeneous networks,” in KDD, 2017.
[2] D. Zhang, J. Yin, X. Zhu, and C. Zhang, “Metagraph2vec: complex semantic path augmented heterogeneous network embedding,” in PAKDD, 2018.
[3] X. Wang, H. Ji, C. Shi, B. Wang, Y. Ye, P. Cui, and P. S. Yu, “Heterogeneous graph attention network,” in WWW, 2019.
[4] C. Zhang, D. Song, C. Huang, A. Swami, and N. V. Chawla, “Heterogeneous graph neural network,” in KDD, 2019.
[5] T. Chen and Y. Sun, “Task-guided and path-augmented heterogeneous network embedding for author identification,” in WSDM, 2017.
[6] Z. Liu, V. W. Zheng, Z. Zhao, Z. Li, H. Yang, M. Wu, and J. Ying, “Interactive paths embedding for semantic proximity search on heterogeneous graphs,” in KDD, 2018.