链路预测是指根据网络中已知的信息对未知或未来可能存在的链路/链接进行预测, 是网络科学及数据挖掘领域的研究热点之一。异质信息网络能够更准确地刻画数据中提供的语意信息, 提高下游数据挖掘任务的效率。因此, 异质信息网络上的链路预测方法需要兼顾网络的拓扑特征与语义特征, 为链路预测任务带来新的挑战。在前人研究的基础上, 系统性地梳理了近年来异质信息网络上的链路预测方法。首先, 对异质信息网络和链路预测相关概念进行介绍; 其次, 对异质信息网络上的链路预测方法进行详细分类, 对不同类型异质信息网络上的链路预测方法进行了总结, 并对各类典型代表方法进行详细介绍; 然后, 对异质信息网络上链路预测方法的应用进行了梳理; 最后, 总结了该领域在进一步研究中需要解决的问题, 以及未来可能的发展方向。随着信息技术的不断发展和算力的大幅度提升,互联 网已深入社会生活的各个领域,互联网大数据类型多样,关 联关系复杂,例如社交媒体和电子商务平台拥有上亿的用 户存量,且用户之间的交互关系错综复杂,实体类型与关联关系多样,丰富的数据导致丰富的信息。Sun等[1]首先提 出异质信息网络概念,用于刻画网络节点或连边类型数量 大于1的网络。目前,针对异质信息网络的研究在包括聚 类、分类、链路预测、排序、推荐、信息融合等[2]领域都取得 了长足的进步,也被广泛应用于医疗疾病诊断[3]、科研学术 合作[4]、社交媒体信息挖掘[5]、电影信息推荐[6]、基因疾病 匹配[7]、作战网络薄弱环节识别[8]等领域。 然而,在异质信息网络进行建模的过程中,由于数据体 量巨大,难以保证获取的数据质量,网络中节点、关联关系 等很多信息存在遗漏、缺失,甚至错误等情况;同时,数据获 取困难,部分数据在真实复杂系统中存在的交互关系,无法 在网络中刻画出来,导致产生不完全信息条件下的网络。 综上,对网络中错误关系的重构、未知关系与未来关系的预 测有十分重要的现实价值[911]。链路预测也称链接预测, 作为异质信息网络的热门研究方向,有重要的理论和应用 价值。在理论方面,链路预测可以从现有观察出发,挖掘网 络中的缺失信息,并进行网络结构、功能和演化趋势预 测[12]。在应用方面,互联网大数据体量庞大,难以获取完 整网络结构,链路预测能够根据已有数据对缺失的链接进 行预测和网络重构,并基于历史时间戳数据预测动态网络 链接,例如电商平台中商品的推荐、交友平台中潜在好友的 推荐,以及装备网络中装备之间的交互关系预测。 作为数据挖掘领域的热门研究话题,近年来,有大量学 者对链路预测开展研究。2019年,链路预测在异质信息网 络上的应用开始被大量研究,与之相关的技术包括机器学 习、图卷积网络等。相关学者已对信息网络上的链路预测 问题从不同角度进行了总结,如吕琳媛等[13]从网络结构层 面对同质信息网络上的链路预测方法进行了系统总结;Shi 等[2]在对异质信息网络进行分析的过程中,对异质信息网 络上的节点相似度计算、链路预测以及推荐方法进行总结; Daud[14]分别从网络类型和技术应用场景两个维度,对社交 网络上的链路预测方法进行梳理;Kumar等[15]对链路预测 的技术和应用进行总结,并对29个基于拓扑特征的链路预 测方法和8个基于网络表示学习的链路预测方法在8个数 据集上进行比较。然而,根据已有的链路预测研究综述可 知,目前没有综述对近几年异质信息网络上的链路预测方 法进行系统总结。本文在已有研究的基础上,针对上述综 述文章的不足,结合近期异质信息网络上的链路预测方向 取得的最新成果,对异质信息网络上的链路预测方法进行 总结,主要贡献包括以下3点: (1)本文在已有综述研究的基础上对异质信息网络上 的链路预测方法进行了系统梳理与总结,从监督学习和无 监督学习两个方面对异质信息网络上的链路预测问题进行 了详细介绍。 (2)本文除了对无权无向的静态单层异质信息网络上 的链路预测方法进行系统梳理,还对多层异质信息网络以 及时序异质信息网络上的链路预测方法进行单独总结。 (3)本文对异质信息网络在不同领域的应用进行阐 述,并指出异质信息网络链路预测领域待解决的问题,同时 提出了该领域未来可能的研究方向。 本文的结构如下:第1节对异质信息网络进行建模,介 绍了异质信息网络和链路预测的相关概念,并说明异质信 息网络上链路预测的评价方法;第2节从基于结构相似性、 元路径相似性以及特征向量相似性3个角度对无监督学习 的链路预测方法进行介绍;第3节从基于特征工程、元路径 以及深度学习3个角度对监督学习的链路预测方法进行介 绍;第4节对不同类型异质信息网络进行比较,并总结了不 同类型网络上的链路预测方法;第5节介绍了异质信息网 络上的链路预测应用实例;第6节对异质信息网络上的链 路预测进行总结,并指出未来可能的研究方向。