「图学习推荐系统」最新2022综述

2022 年 9 月 18 日 专知

协同过滤是一种被广泛应用于推荐系统中的方法,其利用不同用户之间(或不同物品之间)的相似性关系来过滤和抽取用户和物品的交互信息,从而进行用户推荐.近年来,图神经网络因其出色的表示学习性能和良好的可扩展性逐渐成为推荐领域中的一种新兴的范式.文中从图学习角度对近年来推荐领域的研究进行系统性的回顾与总结.首先,根据数据类型将推荐场景分成两类,包括基于交互信息的推荐系统(将用户与物品交互数据作为关键数据源)和辅助信息增强的推荐系统(融入与用户和物品相关联的社交信息和知识图谱信息);其次,从随机游走、图表示学习和图神经网络方面入手,对不同推荐场景中的方法、关键技术、主要难点和重要进展进行回顾与总结;最后,总结关于图学习方法在推荐领域中面临的挑战和未来的主要研究方向.

https://www.jsjkx.com/CN/10.11896/jsjkx.210900072

１引言

随着互联网技术的高速发展以及移动终端的全面普及, 互联网中的信息量呈指数级增长.互联网给用户提供海量资源的同时,也给用户带来了信息过载的问题[１Ｇ２],即用户很难在众多内容中快速、高效地筛选出自己感兴趣或者对自己有意义的内容.推荐系统通过主动向用户推荐其感兴趣内容,帮助用户过滤掉许多不感兴趣或者不相关的内容,从而有效地缓解信息过载的问题,使用户能更加便捷地浏览感兴趣的内容.因此,推荐系统被广泛地应用在许多企业的服务中,已逐渐成为企业吸引用户不可或缺的工具.针对不同的应用场景,推荐系统也演变出不同的推荐任务,其中包括线上购物推荐(如 Amazon、天猫),社交媒体推荐(如微博、抖音)等,为人们的生活带来极大便利的同时,也极大地影响着其生活方式[１].

传统推荐系统分为３类[３]:基于内容的推荐 (ContentＧ BasedRecommendation,CB)[４]、基于协同过滤的推荐(CollaＧ borativeFilteringRecommendation,CF)[５]和混合推荐 (HyＧ bridRecommendation).基于内容的推荐算法根据用户的历史交互记录,构建与历史交互的物品关联性高的推荐物品集, 实现对目标用户的推荐任务;基于协同过滤的推荐利用不同用户之间(不同物品之间)的相似性关系,对用户与物品的交互信息(点击、购买、评分等交互行为)进行筛选过滤,为目标用户推荐感兴趣的物品;混合推荐将不同推荐技术融入推荐系统中,避免单一推荐技术的缺陷.传统推荐系统中,相似性度量方法包括欧氏距离、余弦相似度、皮尔逊相关系数等.常用的模型方法包括矩阵分解(MatrixFactorization,MF)[６]、概率矩阵分解 (Probabilistic MatrixFactorization,PMF)[７]等. 传统推荐系统简单易操作,可以快速地对用户与物品的交互信息建模,但存在数据稀疏问题,无法处理关系复杂的推荐以及缺乏可解释性.

随着机器学习的快速发展,经典的机器学习算法被广泛地应用到推荐领域中,如逻辑回归(LogisticRegression,LR)、梯度提升决策树(GradientBoostingDecisionTree,GBDT)和因子分解机(Factorization Machines,FM)等[８Ｇ１０].基于机器学习的推荐模型可以处理运算复杂的推荐,但基于机器学习的推荐算法往往只能建模用户的历史交互数据中的低阶特征表示,缺乏对高阶特征表示的建模能力. 随着深度学习的兴起,深度神经网络被广泛地应用到推荐领域中,如深度神经网络 (Deep Neural Networks, DNN)[１１Ｇ１２]、卷积神经网络(ConvolutionalNeuralNetworks, CNN)[１３Ｇ１５]、循环神经网络 (Recurrent Neural Network, RNN)[１６]、注意力模型(Attention Model)[１７]以及变分自编码器(VariationalAutoencoder,VAE)[１８Ｇ１９]等,并且都取得了不错的推荐效果.

推荐系统中的大部分数据本质上都可被视为图结构数据.例如,用户对物品的交互行为(点击、浏览、购买等),从图结构方面考虑,用户一旦点击或购买物品,就与这些物品相关联.但绝大多数深度学习任务都是针对１D,２D或３D 的欧氏结构化数据(如声音信号、图像和视频等)进行研究.推荐系统中的非欧氏结构化数据(图结构数据)的节点的邻域并不一致,部分节点的邻居节点多,部分节点的邻居节点少.非欧氏结构化数据的复杂性使得传统的深度学习无法有效地建模图结构数据[２０].随着图学习(GraphLearning,GL)方法,特别是图学习中的图神经网络(GraphNeuralNetworks,GNN)的提出,其在复杂关系提取和链路预测等许多图任务中取得了巨大成功[２１Ｇ２７],引起了学术界和工业界研究人员的关注.由于推荐系统的大部分数据具有图结构的特性,将图学习方法应用到推荐领域是一种很自然的做法.因此,图学习方法已逐渐成为推荐领域内一种被广泛研究的新兴推荐范式,即基于图学习的推荐系统[２８Ｇ３１].当用户与物品的交互信息和用户与物品相关联的辅助信息被构建成图结构形式,再结合以随机游走、图表示学习和图神经网络为主要代表的图学习方法,即可捕获、学习和模拟用户与物品之间高阶的、复杂的关系,更加有效地学习用户的长期兴趣偏好和物品的特征属性, 以提升推荐系统的推荐性能[３２Ｇ３６].因此,对基于图学习的推荐方法进行系统性的总结与回顾,可以使研究者们更好地把握这一新兴领域的研究现状和挑战,促进图学习方法在推荐领域的发展.

由于图学习技术在推荐领域中的广泛运用,一部分研究学者已经对基于图结构数据的推荐系统进行了回顾和总结. Laknath [２９]从全局排名方法、重启随机游走到吸收随机游走３个方面对不同推荐任务中的随机游走方法进行了详细的分析与总结.Gao等[３０]主要从推荐系统的冷启动、可扩展性、个性化以及动态性的推荐问题出发,对基于知识图谱(KnowＧ ledgeGraph,KG)推荐任务上的图神经网络方法进行了回顾和总结.Guo等[２８]将知识图谱任务上的推荐方法划分为嵌入方法、路径方法以及未统一定义方法,然后分别对各分类中的推荐方法进行了详细的分析与总结.Wu等[３１]从图神经网络角度对传统推荐、社交推荐和知识图谱推荐进行了总结. 然而,上述综述工作存在不足之处,Laknath [２９]和 Wu等[３１]的综述工作仅对单一的推荐方法(前者是随机游走方法,后者是图神经网络方法)进行了回顾,Laknath [２９]的综述工作时间较早,并没有总结近几年的相关推荐任务和方法.Gao等[３０]和 Guo等[２８]的综述工作仅对单一的推荐场景(知识图谱)进行了总结.然而单一的推荐方法和推荐场景不能使研究学者快速且全面地了解基于图结构的推荐场景的研究现状和挑战. 针对上述工作的不足,本文首先总结了推荐任务中常用的数据集和评价指标,以方便研究者快速开展对推荐系统的研究; 其次,根据运用的推荐数据类型将推荐运用场景分成两组: 基于交互信息的推荐系统(仅利用用户与物品的交互数据)和辅助信息增强的推荐系统(融入与用户和物品相关联的社交信息以及知识图谱信息等信息).其中,辅助信息增强的推荐系统主要从用户社交信息和物品知识图谱两个方面对用户和物品相关联的辅助信息进行详细分析,从而对辅助信息增强的推荐系统进行回顾与总结.针对不同的推荐运用场景,分别对随机游走、图表示学习和图神经网络这３种图学习方法进行总结,分析了不同的图学习方法在不同推荐场景下的难点和研究现状.最后,本文总结了图学习方法在推荐领域的未来研究方向,使研究者可以更加清晰地了解图学习在推荐领域中的挑战和发展趋势.基于图学习的推荐方法的分类如图１所示.

２推荐任务定义、评估指标和数据集

推荐系统用于推荐任务的关键数据为用户与物品之间的交互数据,而为了更好地捕捉用户的兴趣偏好和物品的属性特征,推荐任务也常使用与用户和物品相关的辅助信息,包括用户和物品的属性信息、用户之间的社交信息、物品之间的关联信息等,来增强用户和物品的特征表示,如图２所示.推荐任务使用的大部分数据本质上都可被视为图结构数据,用户交互信息可转换为用户与物品的交互二部图[３７],用户和物品表示为交互图中的节点,用户与物品之间的交互表示为交互图中的边.将用户和物品的属性信息与用户的交互图相结合,转换为带有属性的交互图,用户和物品的属性信息表示为图中的节点属性.用户之间社交关系,即用户关注或分享链接给某个用户,可转换为用户信任关系图.用户与物品的属性信息也可以融入用户与物品的交互图中,组合成包含多个实体和多重关系的异构图,而在推荐任务中,常采用知识图谱的方式来表示多种实体之间的关系[２９].基于图学习的方法在捕捉节点之间间接的、高阶的、复杂的连接关系和整体图拓扑结构信息方面具有非常强大的建模能力[２１],因此,将图学习方法应用到推荐领域是一种理所当然的做法.根据图学习方法中使用的用户与物品的信息类型,本文将推荐系统主要分为基于交互信息的推荐系统(模型只考虑用户和物品的交互关系)和辅助信息增强的推荐系统(利用社交关系和知识图谱等辅助信息增强用户与物品的特征表示).

３基于交互信息的推荐系统

基于交互信息的推荐系统通常仅考虑用户与物品之间的交互关系来实现对用户的兴趣偏好建模,其基于这样一个假设,即用户对物品的喜好不随时间发生改变,从而为目标用户提供反映该用户长期兴趣的静态物品推荐列表.基于交互信息的推荐系统利用图学习的方法,对用户的交互二部图以及用户与物品的节点属性进行学习,以捕获用户和物品之间复杂的、高阶的和间接的交互关系,实现对用户与物品邻接矩阵的补全,利用补全的邻接矩阵来评估 O＋中用户u 对没有交互的物品i＋感兴趣的概率或者评分.基于图学习的方法使信息在用户与物品交互图上的节点之间广泛传播,以丰富交互较少的用户和物品的信息,能够缓解数据稀疏性和冷启动问题.然而在交互图上,用户或物品之间可能不存在直接连接,消息需要通过多跳邻居节点进行传播.因此,基于图学习方法在推荐领域如何高效地在用户或物品之间传播信息成为一个重大挑战.为充分发挥基于图学习方法在用户与物品交互图上的模型性能,本文将消息传播问题主要概括为:

(１)交互图的采样:交互二部图是根据用户和物品的交互数据构建而成.但由于推荐任务中的物品数量巨大,考虑推荐模型的训练和计算效率,如何设计数据采样方式才能有效地捕捉用户与物品之间的消息传播,更好地提升推荐性能?

(２)信息聚合:用户与物品之间存在复杂、丰富和潜在的交互关系,如何设计信息聚合方式才能有效地将复杂的、间接和高阶的信息聚合到目标节点,丰富用户和物品的特征表示, 实现用户与物品之间的消息传播?

(３)节点输出:如何构建适用于下游推荐任务的节点表示?

４融入社交信息的推荐系统

社交网络的推荐系统主要考虑利用用户社交网络中的用户信任关系进一步挖掘用户兴趣偏好,缓解推荐任务中的数据稀疏性问题,从而有效地为目标用户推荐其感兴趣所物品[５０,７１Ｇ７２].在真实的生活场景中,一个用户的兴趣爱好很可能会受他所信任的朋友的兴趣影响,即社交影响会在社交网络中传播和扩散[５１].社交关系可以构建成一个关于用户之间的同构图,其中每个用户代表图中的一个节点,两个用户之间存在信任关系会对应图上的一条边,即用户信任关系图 GU .在GU 中可能存在隐式社交关系,即用户之间没有显式的信任交互,但他们却有潜在关系.在融入社交信息的推荐系统中,利用社交网络中信任的朋友的兴趣特点,来分析目标用户的喜好,从而更加有效地利用信任朋友的偏好来为目标用户推荐其感兴趣的物品,或者通过预测社交网络中可能存在的隐式社交连接,来向目标用户推荐有共同兴趣爱好的朋友[７３].由于社交图也具有图结构属性,社交信息和用户与物品的交互信息可以自然而然地组合成由这两部分信息构成的异构图.一部分为用户与物品的交互图,另一部分为反映社会关系的社交图.此异构图中包含两种不同类型的信息(即交互信息和社交信息). 融入社交信息的推荐系统主要考虑利用目标用户所信任的朋友的影响来帮助模型更好地理解用户的兴趣偏好,但是对目标用户的偏好建模,一方面需要考虑如何利用目标用户信任的朋友的偏好信息来分析目标用户的喜好;另一方面需要考虑不同的朋友对目标用户产生的影响程度如何,这些问题都值得深入研究.因此,如何适当地建模目标用户信任的朋友对目标用户的影响是一个重大的问题.为充分利用社交信息,改善图学习推荐方法的推荐效果,本文将社交影响问题主要概括为:

(１)朋友的影响:如何构建朋友的影响并将其融入推荐过程中? 不同的朋友对目标用户产生的影响程度不同,如何区分朋友之间的影响力? 如何利用社交网络中存在的隐式社交关系?

(２)用户偏好分析:如何从社交信息扩散角度和物品的交互行为角度来分析用户喜好? 如何将社交网络中和物品交互网络中的兴趣偏好特征融合,更加全面构建出用户的喜好?

５融入知识图谱的推荐系统

由于知识图谱包含了物品之间丰富的语义信息和用户与物品、物品与物品之间的多重关系,若能够充分捕捉物品之间潜在的连接关系,对分析用户真实的兴趣偏好和物品的属性特征十分有益.因此,将知识图谱融入推荐系统中,可以进一步提升模型的推荐性能[２２,６４Ｇ６８],还可以增加推荐物品的多样性和有效性.知识图谱虽然包含了丰富的物品信息和用户与物品之间的多重复杂关系,但具有复杂的图结构,其中包含了多种类型的实体和关系,使充分挖掘知识图谱的语义信息成为一个挑战[２８].为充分利用知识图谱中丰富的语义关系来提升推荐性能,本文将知识图谱应用在推荐任务上所面临的问题主要概括如下:

(１) 结构复杂性:鉴于知识图谱具有复杂的图结构,如何简化知识图谱结构来实现消息的高效传播和对知识图谱信息的充分挖掘?

(２)多关系传播:如何捕获实体与实体之间复杂、高阶的多重关系,并将其有效地融入推荐任务中?

(３)特征整合:如何从知识图谱中复杂的实体和多种关系中学习到用户和物品的特征表示并进行有效地融合,从而更加全面挖掘出用户的喜好和物品的属性?

６基于图学习推荐的未来研究方向

图学习方法不仅在图分类、链路预测等图结构任务上取得了巨大成功[２１Ｇ２７,８０Ｇ８６],而且在推荐领域也具有出色的推荐表现,但它仍然有许多问题和挑战亟待解决.本节将对图学习方法在推荐领域中的未来研究方向进行分析与总结.

6.1 基于图学习的大规模图推荐

在真实的应用场景中,推荐系统往往会面临一个庞大的用户和商品群体,如淘宝、京东等网上购物平台.数据的规模是推荐系统无法避免的问题,它会导致系统在时间和空间方面的计算资源花费极大.基于随机游走和图表示学习的推荐方法在面对大规模的用户和商品数据时,模型的处理效率低下.而基于图神经网络的方法在大规模图上的训练成本较高,不太适合大规模的图结构数据.因此,需要研究更高效的算法来加速对大规模推荐数据的处理,并不断更新模型以产生更加及时、有效的推荐.

6.2 多源多模态信息整合

辅助信息已被证明在改善数据稀疏性和冷启动等推荐问题上非常有效[２９,７１,８７Ｇ９０].在线上购物系统中,多源多模态的信息包括商家对商品的描述、分类等信息,用户对物品的点击、浏览、加入购物车、评分等信息以及商品的文本、图像等信息.现有的图学习方法难以将多源多模态数据进行有效的融入,导致对数据中丰富的信息利用不充分或数据对象之间的关系表示不明显,不能有效地捕捉到用户更加真实的兴趣偏好和物品真实的属性,使模型的推荐性能无法发挥到极致. 而现有图学习推荐方法对节点的特征向量表示的方式比较单一,通常只能对用户历史交互记录进行有效的处理,难以将多源多模态信息有效地融入用户与物品的特征表示中,使模型达到最佳的推荐效果.因此,如何有效地整合多源多模态数据信息是图学习推荐方法需要解决的一个重要问题.

6.3 基于图学习的跨领域推荐

跨领域推荐[９１Ｇ９４]可以缓解推荐系统的冷启动和数据稀疏性问题,利用辅助域的信息为目标域进行推荐,能够取得不错的推荐性能.例如用户对电影交互以及用户对书籍交互可看作两个领域,当用户对电影交互信息存在稀疏性问题时, 可以利用用户对书籍的交互信息来对电影的推荐任务提供帮助.现有的图学习方法往往只能对单一领域中的图结构数据进行学习,停留在单一的层面上,难以将训练好的推荐模型从一个领域中的图结构数据迁移到另一个领域中的图结构数据上,不能实现在不同推荐模型之间进行有效的信息迁移.实际上,推荐的数据和交互可以来自多个领域,包括各种来源、系统和模式,它们之间是相互关联的,可以相互协同来提升推荐效果.因此,基于图学习的跨领域推荐是一个值得研究的课题. ６．４推荐方法的可解释性研究现有的图学习推荐方法尽管取得了优异的推荐效果,但推荐结果在科学解释方面往往不能令用户和工业界信服.尽管推荐系统在可解释方面取得了一些进展,但离真正理解用户选择行为背后的原因和意图还有漫长的路要走[９５].然而, 因果推断作为一种用于发现事物之间因果关系的重要技术, 尚未在推荐领域中的可解释性方面得到广泛的研究[９６Ｇ９７]. 因此,在基于图学习的推荐方法中使用因果推断技术来构建可解释的推荐系统是一个值得研究的方向.

7 结束语

图学习方法在推荐邻域中的应用已经受到学术界和工业界越来越多的关注.本文对基于图学习推荐方法的两大应用场景进行了回顾与总结,即基于交互信息的推荐系统和辅助信息增强的推荐系统.针对辅助信息增强的推荐系统,本文主要从用户社交信息和物品知识图谱两部分对关于用户和物品的辅助信息进行详细分析与总结.本文还对各大应用场景中的图学习方法进行了分析与总结,指出了图学习推荐方法所面临的难点及未来研究方向,对基于图学习的推荐系统的研究与发展具有一定的借鉴意义.

专知便捷查看