TKDE 2020 | 面向严格冷启动推荐的属性图神经网络

2020 年 12 月 18 日 PaperWeekly

©PaperWeekly 原创 · 作者｜梁贻乐

学校｜武汉大学硕士生

研究方向｜推荐系统

本文的主要贡献在于区分了推荐系统中的一般冷启动和严格冷启动，并提出了属性图神经网络方法有效应对严格冷启动的场景。基于属性或内容的推荐方法是应对新物品冷启动问题的经典手段，图神经网络可加强对邻居信息的利用，合适的网络结构使两者的效用得以充分发挥。大量实验证明该文方法为解决严格冷启动问题提供了一种可行的途径。

本文还对常用的 MovieLens 公开数据集进行了拓展，从 IMDb 网站为每部电影补充了导演、编剧、演员、国家等属性信息，拓展后的新数据集公布在下方链接，论文代码也已同时公布，可为后续研究基于属性的推荐方法提供参考。

论文标题：

Attribute Graph Neural Networks for Strict Cold Start Recommendation

论文作者：

钱铁云（武汉大学）、梁贻乐（武汉大学）、李青（香港理工大学）、熊辉（新泽西州罗格斯大学）

论文链接：

https://ieeexplore.ieee.org/document/9261110

代码及数据链接：

https://github.com/NLPWM-WHU/AGNN

摘要：评分预测是推荐系统的经典问题，近年来，基于深度学习的方法，特别是图神经网络在该问题上取得了显著进展。然而现有方法主要利用用户-商品的交互关系建模，其模型性能取决于交互的稠密度，而用户-商品的交互通常都是高度稀疏的。更严重的是，对于训练和测试阶段均无交互的严格冷启动用户/商品，已知方法很难获知该用户/商品的偏好表示。

针对上述挑战，我们提出了一个新框架 Attribute Graph Neural Networks（AGNN），利用属性图而不是交互图为严格冷启动用户/商品提供了学习表示的能力。AGNN 通过扩展的变分自编码器（eVAE）学习属性的分布，并为严格冷用户/商品生成偏好表示。

此外，我们设计了一个图神经网络变体 gated-GNN，用来有效聚合邻居中不同模态的各类属性。论文在三个真实数据集上进行实验，结果表明 AGNN 对严格冷启动推荐有显著的提升作用，其性能胜出已知常规方法、归纳式学习方法、元学习方法，以及图神经网络方法，在暖启动场景下也具有比现有方法更优或一致的性能。

引言

评分预测的目标是预测用户对商品的打分，常规的矩阵分解为每个用户/商品学习偏好表示，但在数据稀疏以及更极端的冷启动条件下（即严格冷启动：指新的用户/商品没有出现在任何训练数据中，且测试阶段也没有任何已知交互），其性能会迅速下降。

近年来，图神经网络（GNN）的发展为经典的评分预测问题提供了新的思路。然而，现有 GNN 类方法几乎都建立在用户-商品二部图上，其中节点表示用户/商品，边表示二者之间的交互，因此在没有交互边存在的严格冷启动场景下，上述 GNN 类方法难以奏效。

我们提出利用属性图来代替用户-商品交互图，并设计了一个新的框架—属性图神经网络（AGNN），使得对于严格的冷启动用户/商品也可以利用自身属性产生图结构。我们用图 1 的例子来阐述模型动机。

图 1 展示了用户对不同电影的历史评分行为。当一部新电影“Avengers”上映时，由于其没有包含在训练集中、且没有任何交互信息，属于严格的冷启动商品，预测用户对该电影的评分非常困难。幸运的是，电影存在诸如导演、类别等属性信息，此外具有相似属性的电影可以形成一个图结构，用于传递偏好信息，例如从“Captain America”到“Avengers”。用户的属性也可类似处理。

在属性图的框架下，如何将属性表示转换为偏好表示、以及如何在邻居节点中聚合不同模态的各类属性是亟待解决的关键问题。为此我们提出了 eVAE 结构，用于从冷启动节点的属性分布中推断其偏好表示，我们还设计了 gated-GNN 结构，用于聚合不同属性的邻居节点时获取更精准的权重分配。

问题定义

给出用户-商品评分矩阵，三种场景的评分预测设置如图 2 所示。

暖启动： 为用户-商品预测未知的打分，其中用户/商品存在于交互矩阵 R 中，并且用户/商品包含交互历史。
一般冷启动： 为用户-商品预测未知的打分，其中用户/商品不在交互矩阵 R 中，但测试时可得到用户/商品交互信息。
严格冷启动： 为用户-商品预测未知的打分，其中用户/商品不在交互矩阵 R 中，并且测试时用户/商品也不包含任何交互，但其存在属性信息，我们尤其关注于该场景。

方法-AGNN

我们提出的 AGNN 框架如图 3(a) 所示，模型总体分为四部分：

1）Input layer，构造属性图；

2）Attribute interaction layer，学习节点中的属性交互得到统一表示，并通过 eVAE 为冷启动节点生成偏好表示；

3）Gated GNN layer，在邻居间聚合复杂的节点表示；

4）Prediction layer，计算用户-商品的预测分数。

3.1 Input layer

我们按照相似度的方式构造属性图，包含偏好相似度和属性相似度。偏好相似度用节点的历史打分记录计算，属性相似度由节点的多种属性计算，其中相似度由余弦相似度衡量：

我们设计了动态图构造策略，对于每个节点先取 top p% 相似的节点加入候选池，每轮训练时再根据相似度的大小从中采样邻居节点。

3.2 Attribute Interaction Layer

对于每个输入的节点，包含 multi-hot 属性编码、以及独立标识的 one-hot 编码。对于属性编码，我们通过 Bi-interaction pooling 和线性变换去捕捉属性间的高阶、低阶交互，并将二者结合：

我们融合了属性表示、偏好表示（one-hot ID 映射为 embedding）作为初始的节点表示。

注意到，由于冷启动节点不存在任何交互，因此它对应的偏好表示是无意义的、没有在训练过程中被更新。为此，我们提出了 eVAE 结构通过属性表示重构冷启动节点的偏好表示。eVAE 结构如图 3(b) 所示，它包括 inference、generation 和 approximation 三部分。

前两部分属于标准的 VAE，我们在扩展的 approximation 部分中约束重构的属性表示去近似为偏好表示。在训练过程中，因为用户/商品存在历史打分，所以有意义的偏好表示可被利用来训练 eVAE。综上，我们提出的 eVAE 重构损失定义如下：

3.3 Gated-GNN Layer

对一个节点而言，不同的邻居具备不同的影响力，此外邻居节点由多种属性组成，因此有必要对邻居节点的不同维度给予特定关注。我们设计了如图 4 所示的 gated-GNN 结构以精准聚合细粒度的邻居信息。

为了更好地捕捉网络中的同质现象，我们用 aggregate gate 控制哪些信息应该从邻居节点聚集到目标节点：

此外，我们进一步通过 filter gate 将与邻居节点总体表示不一致的信息进行过滤：

结合两部分信息我们可以得到最终的节点表示：

3.4 Prediction Layer

在获得最终的用户/商品表示后，我们将二者的预测打分建模为：

模型的损失函数定义为评分预测任务的平方损失、以及 eVAE 的重构损失：

实验与分析

论文在三个真实数据集上进行了实验，数据集统计如表1所示：

4.1 总体结果

论文分别在商品冷启动、用户冷启动、暖启动的不同场景设置下进行实验，与 12 个经典或性能最好的方法进行了比较，采用 RMSE、MAE 作为评价指标。我们将 baseline 根据原论文所应用于的场景划分为三类：

暖启动（包含 NFM、DiffNet、DANSER、sRMGCNN、GC-MC）；
一般冷启动（包含 STAR-GCN、MetaHIN、IGMC）；
严格冷启动（包含 DropoutNet、LLAE、HERS、MetaEmb）。

其中，NFM 属于常规方法，MetaHIN、MetaEmb 采用了元学习方法，DiffNet、DANSER、sRMGCNN、GC-MC、STAR-GCN、IGMC、HERS 均利用了图神经网络结构，而 STAR-GCN、IGMC 同时也是归纳式学习方法，DropoutNet 和 LLAE 分别通过 dropout 技术和自编码器对冷启动特殊处理。

在实验中，我们对所有 baseline 及 AGNN 使用相同的属性信息，并且一致采用严格冷启动的条件设置，以达到公平比较。实验结果如表 2 所示，AGNN 模型在严格冷启动场景下均取得了最佳结果，在暖启动场景中达到最好或次好的结果。