摘要
推荐系统是一种缓解信息超载问题的关键工具,旨在通过分析观察到的用户-商品关系,从数百万的候选商品中预测出用户喜欢的商品。针对推荐系统存在的稀疏性和冷启动问题,利用侧信息和知识来挖掘隐藏的(间接的)用户-物品关系来丰富推荐的观测信息,近年来被证明是有前景的;而推荐模型在面对高度复杂和大规模的侧信息和知识时的可扩展性在很大程度上决定了推荐模型的性能。为了有效地利用复杂和大规模的数据,图嵌入技术的研究是一个重要的课题。将图嵌入技术装备到推荐系统中,可以大大优于传统的直接基于图拓扑分析的推荐实现,近年来得到了广泛的研究。摘要从二部图、一般图和知识图谱的嵌入技术出发,系统地回顾了基于图嵌入的推荐方法,提出了基于图嵌入的推荐方法的总体设计思路。此外,将几种有代表性的基于图嵌入的推荐模型与最常用的传统推荐模型进行了仿真比较,结果表明,传统推荐模型在预测隐式用户-物品交互方面总体上优于基于图嵌入的推荐模型。揭示了基于图嵌入的推荐在这些任务中的相对弱点。为了促进未来的研究,本文提出了基于图嵌入的推荐与传统推荐在不同任务中的权衡,以及一些有待解决的问题。
引言
大数据[1,2]是否有利于人们的生活?从表面上看,这个问题似乎很荒谬。例如,交通大数据有助于量化疫情期间潜在的感染人群[3],科研大数据有助于学术与产业合作[4],多媒体社交大数据通常为消费者带来娱乐[5]。但与此同时,大数据的大容量、高速度、高多样性,也被称为三大“V”特征[6],也带来了问题。信息超载[7,8]就是一个很好的例子,指的是一个人在做决定时可以获得的过多的大数据,例如,哪些文章与研究人员的重点相关,哪些产品满足消费者的需求,哪些电影引起观众的兴趣;从而降低了信息检索的效率。要平衡大数据的这些优点和缺点,使其利益最大化,需要发展大数据挖掘技术[10],其中推荐系统[11-13]已经成为缓解信息超载问题的关键工具,旨在预测用户(如研究人员、消费者、以及观众)偏爱的项目(例如,文章,产品和电影)从数以百万计的候选人。除此之外,推荐系统还见证了从初创企业投资者匹配[14]到建筑能效[15]的商业实践。
开发推荐系统需要克服推荐系统的核心组件推荐模型所遇到的稀疏性问题[16,17]和冷启动问题[18-21]。推荐模型的基本原理是通过分析观察到的用户与物品之间的关系,准确推断出用户对物品的偏好,这是良好推荐性能的前提,其中用户与物品之间的交互(详见2.1.1节)是主要资源。然而,用户-物品交互通常是稀疏的,因为用户交互的物品总数很少,这称为稀疏性问题。当遇到新用户时,如果用户和物品之间还没有观察到交互,就会导致冷启动问题,同样的情况也适用于新商品。因此,由于稀疏性和冷启动问题造成的用户-物品交互不足,削弱了推荐模型对用户偏好推断的准确性;因此,为推荐性能辩护。针对稀疏性和冷启动问题,利用侧信息[22,23]和知识24-26作为用户-物品交互的补充,以发现隐藏的(间接的)用户-物品关系,丰富观察到的信息,用于推荐,最近被证明是很有前景的。
关于有效利用旁侧信息和知识促进推荐性能的能力,关于基于图嵌入的推荐(章节2.2.1给出了细节)是否优于传统的基于图拓扑分析的推荐(章节2.1.4给出了细节)的讨论一直存在争议。在可扩展性方面[16,27],由于大数据继承的侧信息和知识的三个“V”特征,在数据高度复杂和大规模的情况下,每秒对数百万用户和项目进行推荐。基于图嵌入的推荐优于传统推荐,这取决于其不同的原理:在将信息组织成图表示之后(第2.1.2节给出了细节),传统的推荐通过分析图的拓扑特征来运行,如用户与常用项目[28]的协同作用或全局拓扑扩散[29,30]。相比之下,基于图嵌入的推荐是利用节点嵌入向量来实现的,这些节点嵌入向量保存了通过嵌入技术[31]从图表示中学习到的图拓扑特征(Secs. 4.1和5.1给出了回顾)。在不同的推荐系统中使用边信息和知识时,基于图嵌入的推荐可以直接重用学习到的节点嵌入向量,而不像传统推荐那样需要重复分析图的拓扑特征;这样就大大提高了推荐模型的可扩展性。此外,嵌入向量的可存储性使其支持下游需要数据实例特征向量作为输入的机器学习任务[32],如分类[33-39]、链接预测[40-43]、聚类[44]; 因此,基于图嵌入的推荐在模型可扩展性方面优于传统推荐。
然而,关于模型的可解释性(或可解释性)[45]:为什么模型会向用户返回这样的推荐,基于图嵌入的推荐大大低于传统的推荐,因为它普遍采用机器学习方法[46],几乎是一个黑盒,其思想是通过输入-输出数据拟合,通过数值或解析优化方法[47]发现底层模式,而传统的推荐可以通过解析用户-物品节点对的图拓扑特征直接实现可解释性。但最近的一些研究认为,通过在推荐45,48 - 50中使用知识,通过神经网络可解释性[51],以及通过因果学习(因果推理)[52-58]来推理和理解用户的偏好,基于图嵌入的推荐也可以间接实现可解释性。此外,基于图嵌入的推荐与传统推荐在推荐精度上也存在争议。尽管基于图嵌入的推荐通过利用旁侧信息和知识,比传统推荐在推荐精度上有了明显的提高[59-62],然而,与传统推荐相比,它似乎仍然揭示了某些推荐任务在预测隐式用户-物品交互方面的相对弱点,这在第6节的模拟中得到了证明。Dacrema等人[63]也发现了类似的结果。
目前基于图嵌入的推荐和传统推荐缺乏统一的评价标准,这将导致未来对这些争议的长期讨论,涉及准确性、可扩展性、延伸性和可解释性等方面的扩展视角。以及从数学家到数据科学家的跨学科研究人员的参与。发展基于图嵌入的推荐和传统推荐并不矛盾,因为分析传统推荐背后的图拓扑特征的方法可以启发基于图嵌入的推荐在子图[64]、motif[65-67]、和邻域[68-70]促进嵌入可解释性[39]和推荐性能。同时,基于图嵌入的推荐开创了会话推荐系统(CRS)[71]和新闻推荐[72]等新的推荐场景,为传统推荐提供了更广阔的应用前景。如果把这两种功能结合起来,可以使推荐系统变得更大,而不是只专注于某一方面。
与传统推荐综述的成熟[11-13]不同,基于图嵌入的推荐综述[22,25,26,73-78]普遍缺乏系统的结构和深入的描述,为与跨学科研究人员和传统推荐研究人员的全面沟通进行辩护。为了弥合这一鸿沟,本文对基于图嵌入的推荐系统和基于传统方法的推荐系统进行了全面的分析,并提出了基于图嵌入的推荐系统的总体设计思路; 然后从二部图、一般图和知识图谱的嵌入技术出发,系统地回顾了基于图嵌入的推荐方法。此外,本文还对基于代表性图嵌入的推荐模型和常用的传统推荐模型在不同任务下的优缺点进行了仿真比较。揭示了传统推荐模型在预测隐式用户-物品交互方面优于基于图嵌入的推荐模型。通过对实验结果的分析,本文对基于图嵌入的推荐与传统推荐之间的权衡提出了建设性的建议,并提出了一些有待进一步研究的问题。
本文的其余部分组织如下。第2节涵盖了主题和问题的基本定义,建立了对推荐系统的全面视角和基于图嵌入的推荐的通用设计流程。章节3、4、5分别介绍了二部图、一般图和知识图谱的回顾嵌入技术,以及相应的基于图嵌入的推荐模型的回顾。表3和A2提供了这些模型的概述。第6节展示了基于代表性图嵌入的推荐模型和最常用的传统推荐模型在不同任务和数据尺度下的仿真结果,并对结果进行分析,提出建设性的权衡建议和一些开放性问题。最后,第7节提出了基于图嵌入的推荐的前景,从当前的挑战到潜在的解决方案。