题目: 异质信息网络分析与应用综述
投寄至软件学报
随着大数据时代的到来,异质信息网络自然融合异构多源数据的优势使其成为解决大数据多样性的重要途径。因此,异质信息网络分析迅速成为数据挖掘研究和产业应用的热点。本文是2020年针对异质信息网络分析与应用的一篇中文综述,已投寄至软件学报。具体而言,本文对异质信息网络分析与应用进行了全面综述。除介绍异质信息网络领域的基本概念外,重点聚焦基于元路径的数据挖掘方法、异质信息网络的表示学习技术和实际应用三个方面的最新研究进展。并对未来的发展方向进行了展望。
现实生活中形形色色的系统,通常由大量类型各异、彼此交互的组件构成,例如生物、社交和计算机系统等。利用异质网络建模这种类型丰富且交互复杂的数据,可以保留更全面的语义及结构信息。
相较于同质网络,异质网络建模带来了两方面的好处:(1)异质网络不仅可以自然融合不同类型对象及其交互,而且可以融合异构数据源的信息。在“大数据”中许多类型不同的对象互联,可以很自然地利用异质网络建模。同时,不同平台产生的异构多源“大数据”仅捕获了部分甚至是有偏差的特征,异质网络也可以自然融合这些异构数据源的信息。因此,异质网络建模不仅成为解决大数据多样性的有力工具,而且成为宽度学习的主要方法。(2)异质网络包含丰富的结构和语义信息,为发现隐含模式提供了精准可解释的新途径。例如,推荐系统的异质网络中不再只有用户和商品这两种对象,而是包含店铺、品牌等更全面的内容,关系也不再只有购买,而是含有收藏、喜爱等更精细的交互。基于这些信息,利用元路径和元图等语义挖掘方法,可以产生更精细的知识发现。
基于以上信息融合优势,异质网络分析迅速成为数据挖掘、数据库和信息检索等领域的研究热点,且全面涉及各类基本任务,如相似性度量、推荐等。随着网络表示学习的兴起,异质网络表示学习也迅速激发了广大研究者的兴趣,学得的低维向量表示在加速下游任务的同时也可以提升性能表现。近年来,异质网络建模被广泛应用到实际系统中,如电子商务和网络安全,同样取得了显著效果。
本文全面总结了异质网络分析的工作,涵盖了异质网络领域的最新发展和前沿成果,如加权元路径、元图和属性异质网络等。特别地,近三年随着网络表示学习的兴起,本文着重介绍了异质网络表示学习的研究进展,且本文是第一篇系统介绍该研究方向的中文综述论文。此外,基于已有成果和发展趋势,本文还指出了该领域未来的研究方向。
在这里,不再赘述基础知识部分,主要展示基于元路径的数据挖掘方法、异质信息网络的表示学习技术和实际应用三个方面的最新研究进展。
本节简要阐述相似性度量、推荐和元路径选择这三个活跃方向的最新工作。
相似性度量用于评估对象的相似性,是许多数据挖掘任务的基础,如Web搜索和聚类等。最近,许多研究者开始关注异质网络中的相似性度量问题。
与同质网络上的相似性度量不同,在异质网络上衡量对象间的结构相似性时,需要考虑连接两对象的元路径种类。因为不同元路径包含的语义不同,基于不同语义可能产生不同的相似性结果。
基于元路径的相似性度量代表工作:PathSim、PCRW和HeteSim等。
然而,基于元路径的相似性度量方法存在三点缺陷:
推荐系统帮助消费者搜寻可能感兴趣的物品,如书籍、电影和餐馆等,往往基于信息检索、统计和机器学习的各种技术计算物品和用户偏好间的相似性。最近,一些研究者意识到异质信息对于推荐的重要性——异质网络全面的信息和丰富的语义使其有望产生更好的推荐结果。
经典异质网络推荐模型:SemRec等。
近些年,随着网络表示学习的兴起,越来越多的异质网络推荐方法利用异质网络表示学习技术学习用户和物品的特征表示用于推荐。
代表工作:HERec、NeuACF等。
伴随图神经网络的大火,异质图神经网络在推荐任务上展现出优越性能。
代表工作:PGCN、MCCF等。
针对元路径只能捕捉简单线性关系的局限性,一些工作尝试利用元图等复杂语义捕捉工具精确建模用户偏好。具体地,Zhao等人[4]将元图的概念引入推荐来刻画复杂语义,并利用“矩阵分解+因子分解机”框架进行信息融合;MoHINRec提出模体增强的元路径,进一步捕获相同类型节点间的高阶关系等。
异质信息网络分析中,大多数方法采用元路径进行特征和子结构抽取。这些方法往往假设存在一组给定的或可枚举的元路径,然后利用它们来计算相似性或网络嵌入。尽管这些方法都展现出了很好的性能,但它们仍然面临元路径选择困境:
目前解决该困境的方法主要分为两类,一类是自动生成元路径,另一类则不利用元路径进行数据挖掘:
由于异质网络的特殊性,同质网络的表示学习方法并不能直接应用于异质网络,主要存在两点挑战:
异质网络表示学习兴起于最近两三年,但是发展迅猛。如图所示,将已有的方法大致按照浅层模型和深层模型分类。
异质网络在商业、安全和医学等领域有许多实际的应用场景。
虽然异质网络已经应用于许多数据挖掘任务和实际场景,但它仍然是一个年轻的、正在快速发展的研究方向,未来值得关注的方向如下:
面向多模态数据的异质网络构建与分析方法。异质网络可以通过融合丰富信息解决大数据的“多样性”挑战。现有工作主要致力于对关系数据库类的结构化数据建模,而文本、图像和多媒体等模态数据是否也可以采用异质网络建模与分析?
面向复杂网络数据的异质网络分析方法。实际应用中的异质网络具有动态变化、规模巨大、模式丰富等特点,需要研究真实复杂网络数据的异质网络分析方法。
面向深度计算的异质网络表示学习。网络表示学习已成为当今热点,而图神经网络作为优美有效的表示学习算法,可以扩展至异质网络中。虽然已有部分工作提出了异质图神经网络,但与同质网络相比,仍有许多方面亟待研究,如异质图神经网络的内部机制、鲁棒性、可解释性等。
更多的实际应用。实际场景中往往存在大量交互和丰富信息,因而可以很自然地利用异质网络建模。目前异质网络研究已逐步与实际相结合,这些工作为采用异质网络解决实际问题带来了启示,但是还有更多可利用异质网络建模的场景尚待发掘。
[1] Wang C, Song Y, Li H, et al. Distant meta-path similarities for text-based heterogeneous information networks[C]// In Proc. of CIKM, 2017: 1629-1638.
[2] Liu Z, Zheng V W, Zhao Z, et al. Semantic proximity search on heterogeneous graph by proximity embedding[C]// In Proc. of AAAI, 2017.
[3] Yang C, Liu M, He F, et al. Similarity modeling on heterogeneous networks via automatic path discovery[C]// In Proc. of ECML, 2018: 37-54.
[4] Zhao H, Yao Q, Li J, et al. Meta-graph based recommendation fusion over heterogeneous information networks[C]// In Proc. of KDD, 2017: 635-644.
长按下图并点击“识别图中二维码”
即可关注北邮 GAMMA Lab 公众号