综述 | 异质信息网络分析与应用综述

2020 年 8 月 8 日 专知
作者:北邮 GAMMA Lab 博士生  王睿嘉

题目: 异质信息网络分析与应用综述

投寄至软件学报

随着大数据时代的到来,异质信息网络自然融合异构多源数据的优势使其成为解决大数据多样性的重要途径。因此,异质信息网络分析迅速成为数据挖掘研究和产业应用的热点。本文是2020年针对异质信息网络分析与应用的一篇中文综述,已投寄至软件学报。具体而言,本文对异质信息网络分析与应用进行了全面综述。除介绍异质信息网络领域的基本概念外,重点聚焦基于元路径的数据挖掘方法、异质信息网络的表示学习技术和实际应用三个方面的最新研究进展。并对未来的发展方向进行了展望

1 引言

现实生活中形形色色的系统,通常由大量类型各异、彼此交互的组件构成,例如生物、社交和计算机系统等。利用异质网络建模这种类型丰富且交互复杂的数据,可以保留更全面的语义及结构信息

相较于同质网络,异质网络建模带来了两方面的好处:(1)异质网络不仅可以自然融合不同类型对象及其交互,而且可以融合异构数据源的信息。在“大数据”中许多类型不同的对象互联,可以很自然地利用异质网络建模。同时,不同平台产生的异构多源“大数据”仅捕获了部分甚至是有偏差的特征,异质网络也可以自然融合这些异构数据源的信息。因此,异质网络建模不仅成为解决大数据多样性的有力工具,而且成为宽度学习的主要方法。(2)异质网络包含丰富的结构和语义信息,为发现隐含模式提供了精准可解释的新途径。例如,推荐系统的异质网络中不再只有用户和商品这两种对象,而是包含店铺、品牌等更全面的内容,关系也不再只有购买,而是含有收藏、喜爱等更精细的交互。基于这些信息,利用元路径和元图等语义挖掘方法,可以产生更精细的知识发现。

基于以上信息融合优势,异质网络分析迅速成为数据挖掘、数据库和信息检索等领域的研究热点,且全面涉及各类基本任务,如相似性度量、推荐等。随着网络表示学习的兴起,异质网络表示学习也迅速激发了广大研究者的兴趣,学得的低维向量表示在加速下游任务的同时也可以提升性能表现。近年来,异质网络建模被广泛应用到实际系统中,如电子商务和网络安全,同样取得了显著效果。

本文全面总结了异质网络分析的工作,涵盖了异质网络领域的最新发展和前沿成果,如加权元路径、元图和属性异质网络等。特别地,近三年随着网络表示学习的兴起,本文着重介绍了异质网络表示学习的研究进展,且本文是第一篇系统介绍该研究方向的中文综述论文。此外,基于已有成果和发展趋势,本文还指出了该领域未来的研究方向。

在这里,不再赘述基础知识部分,主要展示基于元路径的数据挖掘方法、异质信息网络的表示学习技术和实际应用三个方面的最新研究进展。

2 基于元路径的数据挖掘

本节简要阐述相似性度量、推荐和元路径选择这三个活跃方向的最新工作。

2.1 相似性度量

相似性度量用于评估对象的相似性,是许多数据挖掘任务的基础,如Web搜索和聚类等。最近,许多研究者开始关注异质网络中的相似性度量问题。

与同质网络上的相似性度量不同,在异质网络上衡量对象间的结构相似性时,需要考虑连接两对象的元路径种类。因为不同元路径包含的语义不同,基于不同语义可能产生不同的相似性结果

基于元路径的相似性度量代表工作:PathSim、PCRW和HeteSim等。

然而,基于元路径的相似性度量方法存在三点缺陷:

  • 元路径仅适用于计算两个邻近(连接)实体的相似性。因而,Wang等人[1]提出远程元路径相似性,捕获两个远程(隔离)实体间的语义;Liu等人[2]提出邻近嵌入的概念,将网络结构嵌入相距较远的节点间。
  • 元路径的选择往往依赖于领域知识。为此,KnowSim提出无监督的元路径选择方法,并基于所选元路径集合度量相似性;Yang等人[3]将强化学习和深度学习结合至半监督联合学习框架中,用于探索相似节点对间的有用路径。
  • 元路径可以较有效地捕获源对象和目标对象间的单一关系,但往往无法衡量实际问题中的复杂相似性。因此,一些工作提出基于图结构的相似性度量方法,如D2AGE、IPE和SPE等。

2.2 推荐

推荐系统帮助消费者搜寻可能感兴趣的物品,如书籍、电影和餐馆等,往往基于信息检索、统计和机器学习的各种技术计算物品和用户偏好间的相似性。最近,一些研究者意识到异质信息对于推荐的重要性——异质网络全面的信息和丰富的语义使其有望产生更好的推荐结果

经典异质网络推荐模型:SemRec等。

近些年,随着网络表示学习的兴起,越来越多的异质网络推荐方法利用异质网络表示学习技术学习用户和物品的特征表示用于推荐

代表工作:HERec、NeuACF等。

伴随图神经网络的大火,异质图神经网络在推荐任务上展现出优越性能

代表工作:PGCN、MCCF等。

针对元路径只能捕捉简单线性关系的局限性,一些工作尝试利用元图等复杂语义捕捉工具精确建模用户偏好。具体地,Zhao等人[4]将元图的概念引入推荐来刻画复杂语义,并利用“矩阵分解+因子分解机”框架进行信息融合;MoHINRec提出模体增强的元路径,进一步捕获相同类型节点间的高阶关系等。

2.3 元路径选择

异质信息网络分析中,大多数方法采用元路径进行特征和子结构抽取。这些方法往往假设存在一组给定的或可枚举的元路径,然后利用它们来计算相似性或网络嵌入。尽管这些方法都展现出了很好的性能,但它们仍然面临元路径选择困境:

  • 元路径的选择很大程度上依赖于领域知识。对于不熟悉或很复杂的异质网络,难以依靠领域知识选择合适的元路径集合。并且,随着元路径长度的增加,路径数量呈指数增长,使得路径搜索过程非常昂贵。
  • 简单拼接各种元路径的信息反而会引入噪音,影响性能表现。而为各元路径学习合适的权重,又常常需要 监督信息

目前解决该困境的方法主要分为两类,一类是自动生成元路径,另一类则不利用元路径进行数据挖掘:

  • 自动生成元路径的算法往往基于网络模式搜寻可能连接实例对的元路径集合,代表模型有KnowSim、RelSim、SMPG等。
  • 一些工作不采用元路径,而是以关系为出发点进行数据挖掘。代表模型有DBSCAN、PME、RHINE等。

3 异质网络的表示学习

由于异质网络的特殊性,同质网络的表示学习方法并不能直接应用于异质网络,主要存在两点挑战:

  • 节点和边的异质性。不同类型的节点和边代表不同的语义,因此异质网络的表示学习需要将不同类型的对象映射到不同的空间中。此外,如何保存每个节点的异质邻居及如何处理异质的节点序列也是值得探究的问题。
  • 异质网络中丰富信息所带来的表示融合。异质网络从多个维度刻画节点的语义,如何有效抽取和利用多维度信息并融合得到全面的节点表示也是巨大的挑战。

异质网络表示学习兴起于最近两三年,但是发展迅猛。如图所示,将已有的方法大致按照浅层模型深层模型分类。

4 应用

异质网络在商业、安全和医学等领域有许多实际的应用场景。

  • 商业领域,存在大量的关联数据,因而可以构建异质网络。与以往的网络分析相比,利用异质网络建模可以涵盖多类型节点及其之间的交互,整合丰富甚至异构的信息源,从而更全面地刻画节点特征。代表工作如MEIRec,将电子商务平台中的用户、物品和查询建模为图(a)所示的异质网络;2019年CIKM最佳应用论文将闲鱼APP中的用户、商品和评论建模二部网络,并基于图神经网络进行垃圾评论过滤等。
  • 异质网络也被广泛用于建模 网络安全问题中的复杂交互系统。对于恶意软件检测,2017年KDD最佳应用论文提出HinDroid,将Android应用程序、相关API及其丰富关系建模为异质网络,如图(b)所示,然后基于不同元路径度量Android应用的相似性,最终利用多核学习加权相似性来进行预测。为检测套现用户,HACUD利用属性异质网络建模蚂蚁金服信用支付中用户与商家间的交互,如图(c)所示,并基于元路径和层次注意力机制学习用户表示。其余代表工作如AiDroid、OSNE、iDetector等。
  • 医学领域同样也存在大量异质交互场景,可以利用异质网络建模。代表工作如HeteroMed使用异质网络对临床数据进行建模,利用元路径捕获有助于疾病诊断的重要语义;PLPIHS使用异质网络建模lncRNA-蛋白质网络,并基于HeteSim计算lncRNA-蛋白质对的相关性评分来推断其相互作用等。

5 未来发展方向

虽然异质网络已经应用于许多数据挖掘任务和实际场景,但它仍然是一个年轻的、正在快速发展的研究方向,未来值得关注的方向如下:

  • 面向多模态数据的异质网络构建与分析方法。异质网络可以通过融合丰富信息解决大数据的“多样性”挑战。现有工作主要致力于对关系数据库类的结构化数据建模,而文本、图像和多媒体等模态数据是否也可以采用异质网络建模与分析?

  • 面向复杂网络数据的异质网络分析方法。实际应用中的异质网络具有动态变化、规模巨大、模式丰富等特点,需要研究真实复杂网络数据的异质网络分析方法。

  • 面向深度计算的异质网络表示学习。网络表示学习已成为当今热点,而图神经网络作为优美有效的表示学习算法,可以扩展至异质网络中。虽然已有部分工作提出了异质图神经网络,但与同质网络相比,仍有许多方面亟待研究,如异质图神经网络的内部机制、鲁棒性、可解释性等。

  • 更多的实际应用。实际场景中往往存在大量交互和丰富信息,因而可以很自然地利用异质网络建模。目前异质网络研究已逐步与实际相结合,这些工作为采用异质网络解决实际问题带来了启示,但是还有更多可利用异质网络建模的场景尚待发掘。

[1]  Wang C, Song Y, Li H, et al. Distant meta-path similarities for text-based heterogeneous information networks[C]// In Proc. of CIKM, 2017: 1629-1638.

[2]  Liu Z, Zheng V W, Zhao Z, et al. Semantic proximity search on heterogeneous graph by proximity embedding[C]// In Proc. of AAAI, 2017.

[3]  Yang C, Liu M, He F, et al. Similarity modeling on heterogeneous networks via automatic path discovery[C]// In Proc. of ECML, 2018: 37-54.

[4]  Zhao H, Yao Q, Li J, et al. Meta-graph based recommendation fusion over heterogeneous information networks[C]// In Proc. of KDD, 2017: 635-644.


本期责任编辑:杨成
本期编辑:刘佳玮

北邮 GAMMA Lab 公众号
主编:石川
责任编辑:王啸、杨成
编辑:刘佳玮
副编辑:郝燕如,纪厚业

长按下图并点击“识别图中二维码

即可关注北邮 GAMMA Lab 公众号


专 · 知
专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看5000+AI主题知识资料
登录查看更多
27

相关内容

专知会员服务
64+阅读 · 2020年9月24日
基于知识图谱的推荐系统研究综述
专知会员服务
325+阅读 · 2020年8月10日
事件知识图谱构建技术与应用综述
专知会员服务
147+阅读 · 2020年8月6日
领域知识图谱研究综述
专知会员服务
141+阅读 · 2020年8月2日
异质信息网络分析与应用综述,软件学报-北京邮电大学
专知会员服务
102+阅读 · 2020年3月12日
南洋理工大学,深度学习推荐系统综述
专知会员服务
174+阅读 · 2019年10月14日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
78+阅读 · 2019年10月12日
网络表示学习概述
机器学习与推荐算法
19+阅读 · 2020年3月27日
图神经网络(Graph Neural Networks,GNN)综述
极市平台
104+阅读 · 2019年11月27日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
12+阅读 · 2018年12月23日
【物联网】物联网产业现状与技术发展
产业智能官
15+阅读 · 2018年12月17日
网络舆情分析
计算机与网络安全
19+阅读 · 2018年10月18日
AI综述专栏|跨领域推荐系统文献综述(下)
人工智能前沿讲习班
14+阅读 · 2018年5月18日
AI综述专栏 | 跨领域推荐系统文献综述(上)
人工智能前沿讲习班
13+阅读 · 2018年5月16日
综述 | 知识图谱发展概述
PaperWeekly
75+阅读 · 2017年11月3日
Arxiv
4+阅读 · 2019年4月17日
Deep Face Recognition: A Survey
Arxiv
17+阅读 · 2019年2月12日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
VIP会员
相关VIP内容
专知会员服务
64+阅读 · 2020年9月24日
基于知识图谱的推荐系统研究综述
专知会员服务
325+阅读 · 2020年8月10日
事件知识图谱构建技术与应用综述
专知会员服务
147+阅读 · 2020年8月6日
领域知识图谱研究综述
专知会员服务
141+阅读 · 2020年8月2日
异质信息网络分析与应用综述,软件学报-北京邮电大学
专知会员服务
102+阅读 · 2020年3月12日
南洋理工大学,深度学习推荐系统综述
专知会员服务
174+阅读 · 2019年10月14日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
78+阅读 · 2019年10月12日
相关资讯
网络表示学习概述
机器学习与推荐算法
19+阅读 · 2020年3月27日
图神经网络(Graph Neural Networks,GNN)综述
极市平台
104+阅读 · 2019年11月27日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
12+阅读 · 2018年12月23日
【物联网】物联网产业现状与技术发展
产业智能官
15+阅读 · 2018年12月17日
网络舆情分析
计算机与网络安全
19+阅读 · 2018年10月18日
AI综述专栏|跨领域推荐系统文献综述(下)
人工智能前沿讲习班
14+阅读 · 2018年5月18日
AI综述专栏 | 跨领域推荐系统文献综述(上)
人工智能前沿讲习班
13+阅读 · 2018年5月16日
综述 | 知识图谱发展概述
PaperWeekly
75+阅读 · 2017年11月3日
Top
微信扫码咨询专知VIP会员