近年来,采用异质信息网络统一建模推荐系统中不同类型对象的复杂交互行为、丰富的用户和商品属性以及各种各样的辅助信息,不仅有效地缓解了推荐系统的数据稀疏和冷启动问题,而且具有较好的可解释性,并因此得到了广泛关注与应用。据我们所知,本文是首篇专门介绍基于异质信息网络的推荐系统的综述。
具体而言,本文首先介绍了异质信息网络和推荐系统的核心概念和背景知识,简要回顾了异质信息网络和推荐系统的研究现状,并且阐述了将推荐系统建模为异质信息网络的一般步骤。然后,本文根据模型原理的不同将现有方法分为三类,分别是基于相似性度量的方法、基于矩阵分解的方法和基于图表示学习的方法,并对每类方法的代表性工作进行了全面的介绍,指出了每类方法的优缺点和不同方法之间的发展脉络与内在关系。最后,本文讨论了现有方法存在的问题,并展望了该领域未来的几个潜在的研究方向。
1 引言
推荐系统往往面临着数据稀疏和冷启动问题,因此无法得到精准的推荐结果。在推荐系统中引入辅助信息可以有效地缓解这些问题。例如社会化推荐根据用户之间的关系构造社交网络作为辅助信息,从而能够在推荐系统中充分利用社会关系对用户喜好的影响。类似地,基于地理位置的社交推荐构建了用户与位置之间的关系,通过用户的位置记录来捕捉用户的行为偏好。然而,这些方法仅适用于某种特定类型的辅助信息,不具有普适性。
异质信息网络是一种通用的融合多源数据的方法。通过将推荐系统视为由不同类型对象和交互构成的异质信息网络,我们可以建模用户与商品之间复杂的交互关系,而且可以有效融合属性和各类辅助信息。基于异质信息网络的推荐系统在信息融合、探索结构语义等方面具有显著优势,不仅可以有效缓解数据稀疏与冷启动问题,而且有助于提升推荐系统的准确性和可解释性,因此取得了广泛的关注与应用。
综述的章节编排如下:第2章简要介绍推荐系统和异质信息网络的相关概念与定义;第3章按照模型原理的不同,对基于异质信息网络的推荐系统进行分类,并对现有方法进行了系统地梳理与分析;第4章展望了基于异质信息网络的推荐系统未来研究方向;第5章回顾并总结全文。(在这里,主要展示第3章和第4章的核心内容,其他内容详见论文原文。)
2 模型分类
目前,研究人员设计了各种适用于异质信息网络建模的推荐算法。本章根据模型的不同,将现有工作进行分类,如表1所示。 图片
2.1 基于相似性度量
推荐系统的个性化匹配往往基于对实体相似性的度量,而协同过滤需要基于用户与商品之间的交互历史计算相似度。早期的相似性度量算法仅对同质信息网络定义,然而,这些算法忽视了对象和联系的不同类型,不适用于建模为异质信息网络的推荐系统。为了解决这一问题,研究者们提出了一系列用于异质信息网络中实体相似性度量的算法,主要包括基于随机游走的方法和基于元路径的方法。基于这两类异质信息网络相似性度量算法,研究者们提出了很多协同过滤算法的变体,本文将这类方法统称为基于相似性度量的方法。(详见原文)
2.2 基于矩阵分解
为了解决相似性度量方法存在的时空复杂度高的问题,推荐系统的研究者们提出了矩阵分解模型,其原理是通过分解评分矩阵来提取出用户和商品的隐向量,然后根据隐向量的相似度进行推荐。传统的矩阵分解模型在训练时使用隐向量重构共现矩阵作为优化目标,无法利用异质信息网络中丰富的语义信息。很多研究者提出适用于异质信息网络建模的矩阵分解方法,可以分为两类:基于正则化的方法,和基于神经矩阵分解的方法。与基于相似性度量的方法相比,本节介绍的方法不依赖显式的路径可达性,当路径连接稀疏或嘈杂时也不会失败。(详见原文)
2.3 基于图表示学习
随着深度学习的发展,基于神经网络的推荐模型凭借其强大的特征交叉能力以及模型架构设计的灵活性,取得了较好的推荐效果。然而,传统的神经网络并不能直接建模图结构。随着图表示学习技术的兴起,研究者们尝试设计融合图表示学习技术的推荐模型,从而更好地学习图数据中丰富的结构和语义信息。本节将这类方法统称为基于图表示学习的方法,并进一步分为基于两阶段训练的方法和基于端到端训练的方法。(详见原文)
3 未来研究方向
异质信息网络作为一种融合辅助信息的建模方法,凭借其缓解数据稀疏与冷启动问题、提升模型性能与可解释性等方面的优势,已经在各种各样的推荐系统模型和推荐任务上得到了应用。然而,基于异质信息网络的推荐系统仍面临很多挑战,本节将介绍几个潜在的未来研究方向。(详见原文) 新型的异质图推荐的模型与应用:基于图神经网络的推荐系统模型仍存在过平滑、鲁棒性差等缺陷,而目前在图神经网络中引入异质信息的方法也仍不够灵活,如何设计更好的异质图推荐模型存在挑战,如何将异质信息网络用于更多类型的推荐任务也存在挑战。
面向跨域数据的异质图推荐:目前的绝大多数工作仅关注在单一异质网络上的推荐任务,与单图推荐相比,跨域推荐存在很多额外的挑战。例如,如何设计源域到目标域的映射函数,如何在利用跨域信息的同时不泄露用户隐私等,如何应对上述挑战是未来的研究重点。
面向大规模实时场景的异质图推荐:真实的推荐系统往往需要处理超大规模的数据,并且对推荐的实时性有较高的要求,因此很多复杂的推荐模型无法直接使用。大规模实时推荐主要面临两方面问题:一方面是模型的轻量化,另一方面是模型的动态更新。目前的推荐算法轻量化和动态更新方法主要适用于二分图,如何将其应用于异质信息网络存在挑战。