【博士论文】基于网络特征学习的个性化推荐系统

2020 年 12 月 11 日 专知

来自上海交通大学王鸿伟的博士论文，入选2020年度“CCF优秀博士学位论文奖”初评名单！

https://www.ccf.org.cn/Focus/2020-12-03/717578.shtml

基于网络特征学习的个性化推荐系统

在当今信息爆炸的时代，个性化推荐系统（personalized recommender systems）是面向用户的互联网产品的核心技术。推荐系统可以帮助用户获取所需要的信息，改善信息超载的问题。推荐系统的技术核心是对用户历史、物品属性和上下文等信息进行建模，推断出用户的兴趣爱好，并向用户推荐感兴趣的物品。因此，实用的推荐算法需要有很强的扩展性，可以方便地融合各种辅助信息。在众多的辅助信息中，有一类较为特殊，即拥有网络结构的信息（network-structured information），例如，用户之间的在线社交网络（social network），以及物品之间的知识图谱（knowledge graph），甚至用户和物品的交互本身就构成了一个交互图（interaction graph）。网络结构的信息为推荐算法提供了丰富的辅助输入，然而如何有效地利用这种高维结构数据，成为推荐系统中的一个富有挑战性的问题。

近年来，网络特征学习（network representation learning）逐渐成为机器学习中的一个热门的研究方向。网络特征学习试图为一个网络中的每一个节点学习得到一个低维表示向量，同时保持其原有的结构信息。由于推荐系统中天然存在着大量的网络结构，因此，将网络特征学习与推荐系统相结合，用网络特征学习的方法去处理推荐系统中的相关特征，可以有效地增强推荐系统的学习能力，提高推荐系统的精确度和用户满意度，从而为现实生活中的各类互联网应用提供更优良的用户体验，进而减轻信息爆炸带来的负面影响，提升整体经济效率。

本文的主题为基于网络特征学习的个性化推荐系统。本文的研究内容和主要贡献如下：

一，研究应用于推荐系统交互图的网络特征学习方法。在推荐系统中，用户和物品之间的显式反馈或隐式反馈构成了一个有权重或无权重的交互图。因此，本文提出从网络特征学习的角度来设计推荐算法模型。我们提出了 GraphGAN，一个将生成式方法和判别式方法进行统一的联合模型。在该联合模型中，判别器和生成器之间进行对抗式的训练（adversarial training）：生成器试图拟合网络中节点之间的真实连接性概率分布，并为给定节点生成出其“伪”邻居；判别器试图为给定节点区分它真实的邻居和由生成器生成出的“伪”邻居。两者之间的对抗学习会迫使它们在训练中各自提高生成或判别能力。最后学习得到的模型可以用来刻画用户或者物品的特征，并应用于推荐系统场景。

二，研究社交网络辅助的推荐系统。在很多推荐场景中，用户端都会存在一个在线社交网络。根据同质性假设，两个在社交网络中关系紧密的用户的偏好也很可能会相似。因此，使用社交网络的信息来辅助推荐算法有重要的实际意义。本文研究两种将社交网络信息和推荐系统进行融合的方法：（1）基于特征的方法（embedding-based method）。基于特征的方法会先用网络特征学习技术将社交网络中的节点（即用户）映射到低维连续空间，然后将用户的低维特征用于后续推荐任务。特别地，本文提出 SHINE 模型。SHINE 模型在微博明星推荐任务中利用自编码机挖掘用户的社交关系，并辅助推荐系统的决策。（2）基于结构的方法（structure-based method）。基于结构的方法会对社交网络的结构进行更加直接地利用。特别地，本文研究微博投票推荐任务中用户端的社交网络结构对投票参与度的影响。我们设计了一种联合矩阵分解模型 JTS-MF，将用户的关注/被关注信息和用户的群组信息融合到推荐系统的设计中。实验结果一致表明，社交网络的引入对推荐系统性能的提高有非常关键的作用。

三，研究知识图谱辅助的推荐系统。在很多推荐场景中，物品可能会包含丰富的知识信息。物品端的知识图谱强化了物品之间的联系，为推荐提供了丰富的参考价值。类似地，本文提出两种将知识图谱引入推荐系统的方法：（1）基于特征的方法。本文首先使用知识图谱特征学习方法学习实体和关系的低维向量表示，这些低维表示可以用于后续的推荐系统。根据知识图谱特征学习和推荐系统这两个任务的训练次序的不同，这类方法又分为依次学习法（one-by-one learning）和交替学习法（alternate learning）。相应地，本文提出两个模型 DKN 和 MKR。DKN 使用卷积神经网络和注意力网络分别学习新闻标题的知识特征和用户的历史兴趣。MKR 中的多任务学习框架可以利用知识图谱特征学习任务辅助提高推荐系统任务的性能。（2）基于结构的方法。本文提出了两种基于结构的模型，它们都涉及在知识图谱上进行宽度优先搜索来获取一个实体在知识图谱中的多跳邻居。根据利用多跳邻居的技术的不同，这两种模型可以分为向外传播法（outward propagation）和向内聚合法（inward aggregation）。我们提出了 RippleNet 模型，一种向外传播法的代表。它模拟了用户的兴趣在知识图谱上的传播过程，并借此发现用户更多潜在的、层级化的偏好。我们也提出了 KGCN 模型，一种向内聚合法的代表。KGCN 在学习知识图谱中的实体特征时聚合了该实体的邻居特征表示。通过增加迭代次数，邻居的定义可以扩展到多跳之外，从而实现了对用户潜在兴趣的挖掘。实验结果证明，利用知识图谱的高阶结构信息可以很好地提升推荐系统的性能；同时，基于特征的方法具有很强的灵活性（flexibility），而基于结构的方法具有很强的可解释性（explainability）。