异质图(Heterogeneous Graph, HG)也称为异质信息网络(Heterogeneous Information Network, HIN),在现实世界中已经无处不在。异质图嵌入(Heterogeneous Graph Embedding, HGE),旨在在低维的空间中学习节点表示,同时保留异质结构和语义用于下游任务(例如,节点/图分类,节点聚类,链接预测),在近年来受到了广泛的关注。在综述中,我们对异质图嵌入的方法和技术的最新进展进行了全面回顾,探索了异质图嵌入的问题和挑战,并预测了该领域的未来研究方向。
该论文的主要贡献如下:
复杂结构:同质图中的结构可以被认为是一阶,二阶甚至更高阶的信息,所有的结构都是定义明确并具有良好直觉的。但是在异质图中,结构将根据选择的关系而发生巨大的变化。以学术网络为例,一篇论文的邻居可以是具有writing关系的作者,也可以是具有contain关系的关键词。更困难的是,这些关系的组合(可以被认为是异质图中的一个高阶结构)将产生更加复杂的结构。因此,如何有效且有效率地保持这些复杂的结构,是异构图嵌入中的一个巨大挑战,目前已经有一些工作探索了元路径结构[1]和元图结构[2]。
异质属性:由于同质图中的节点和边具有相同的类型,所以节点或边属性的每个维度都具有相同的含义。在这种情况下,节点可以直接融合其邻居的属性。然而,在异质图中,不同类型的节点和边的属性可能具有不同的含义[3], [4]。因此,如何克服属性的异质性,有效地融合邻居的属性成为异质图嵌入的又一大挑战。
任务依赖:异质图与实际应用密切相关,但有许多实际问题尚未解决。例如,在实际应用中,构建合适的异质图可能需要足够的领域知识。此外,元路径或者元图被广泛用于捕获异质图的结构,然而,与同质图中结构(例如一阶和二阶结构)被很好的定义不同,元路径选择也可能需要先验知识。此外,为了更好地方便实际应用,我们通常需要在异质图的嵌入过程中,仔细地编码辅助信息(如节点属性)[3],[4]或更高级的领域知识[5],[6]。
该论文首先从使用的信息这一角度对现有的异质图嵌入方法进行总结归纳,具体如下:
我们从技术的角度对异质图嵌入中广泛使用的技术(或模型)进行了总结,一般分为浅层模型和深层模型两大类。
[1] Y. Dong, N. V. Chawla, and A. Swami, “metapath2vec: Scalable representation learning for heterogeneous networks,” in KDD, 2017.
[2] D. Zhang, J. Yin, X. Zhu, and C. Zhang, “Metagraph2vec: complex semantic path augmented heterogeneous network embedding,” in PAKDD, 2018.
[3] X. Wang, H. Ji, C. Shi, B. Wang, Y. Ye, P. Cui, and P. S. Yu, “Heterogeneous graph attention network,” in WWW, 2019.
[4] C. Zhang, D. Song, C. Huang, A. Swami, and N. V. Chawla, “Heterogeneous graph neural network,” in KDD, 2019.
[5] T. Chen and Y. Sun, “Task-guided and path-augmented heterogeneous network embedding for author identification,” in WSDM, 2017.
[6] Z. Liu, V. W. Zheng, Z. Zhao, Z. Li, H. Yang, M. Wu, and J. Ying, “Interactive paths embedding for semantic proximity search on heterogeneous graphs,” in KDD, 2018.
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“HGE” 可以获取《异质图嵌入综述: 方法、技术、应用和资源, 23页pdf》专知下载链接索引