WSDM 2022 | 基于图神经网络的协同过滤设计空间研究

2022 年 1 月 3 日 专知

论文解读者：北邮GAMMA Lab硕士生王贞仪

会议：WSDM 2022

论文链接：http://www.shichuan.org/doc/125.pdf

近年来，图神经网络（Graph Neural Network，GNN）被广泛应用于协同过滤（Collaborative Filtering，CF）这一推荐系统中最流行的技术之一。然而，大多数现有工作关注特定推荐场景下的单个最优模型架构设计，而缺少模型不同设计维度对推荐性能影响的理解。因此，如何在新的推荐场景中快速获得高性能模型仍然是一个具有挑战性的问题。为解决这一问题，在本工作中，我们首次尝试对基于GNN的CF方法的设计空间进行剖析，以丰富我们对不同设计维度的理解，同时提供一种新颖的模型设计范式。我们提出了基于GNN的CF的统一设计框架，在此基础上提出设计空间，并通过大量实验评估不同设计维度对推荐性能的影响，得到有趣的实验发现。在实验结果的指导下，我们进一步压缩设计空间，使其更加紧凑，包含更高比例的高性能模型。实验结果表明，压缩后的设计空间具有质量高、泛化能力强的优点。

1. 引言

协同过滤是目前最流行的推荐技术之一，其目的是基于其他相似的用户行为来预测目标用户的偏好，普遍做法为首先学习用户和商品的低维表示，然后使用一个交互函数来预测用户对商品的偏好（评分）。最近，许多工作将GNN引入CF并取得了良好效果，用户-商品交互记录可被自然地建模为二部图的形式，GNN可以通过迭代消息传递（邻居聚合）来捕获用户-商品二部图中的高阶信息，从而更好地学习用户/商品表示。

现有基于GNN的方法主要局限于为特定的推荐场景设计单一的最佳模型架构，而在现实世界的应用中，由于推荐数据在其收集领域和各项属性（如规模（大或小）和密度（稠密或稀疏）等方面的多样性，推荐场景是丰富多样的。这种多样性使得研究者或从业者需要为不同的推荐场景设计不同的架构，模型中每个设计维度的最优选择（例如聚合函数或激活函数）因推荐场景而异。此外，现有工作虽然设计了各种新的基于GNN的CF模型，但对基于GNN的CF不同设计维度对推荐性能的影响却鲜有系统研究。因此，每次给定一个新的推荐场景，都需要包括计算资源和人力资源在内的巨大投入，探索GNN模型所有维度的巨大组合空间，以获得性能最佳的模型。

为解决以上问题，在本工作中，我们首次尝试对基于GNN的CF设计空间进行剖析，这不仅能加深领域研究者对模型不同设计维度的理解，也为多样推荐场景下高性能GNN模型的高效设计提供了新的范式；在这些理解的指导下，我们对原设计空间进行了压缩，以获得一个紧凑的空间，其中包含更高浓度的高性能模型。实验表明，压缩后的设计空间具有较高的质量和较强的泛化能力。

2. 基于GNN的CF设计空间

统一框架

如下图所示，本工作为基于GNN的CF方法提出了一个由4个模块，即初始化、图神经网络、多成分和交互函数，组成的统一框架。以用户端的表示更新过程为例，我们对该框架进行如下阐述。

初始化将用户/商品的one-hot ID投影为稠密的嵌入向量，即，其中（）为用户（商品）的初始嵌入。这是在没有其他可用特征，如用户画像或商品属性时，获取嵌入的常用做法。
图神经网络将用户/商品的初始嵌入作为输入，通过GNN层的迭代传播来更新嵌入，并结合各层的输出（括初始嵌入）得到用户/商品表示，过程如下：

其中，（）为用户（商品）经过层GNN更新后的表示，为编码商品到用户的消息流的消息函数，为激活函数，为用户的邻居，为邻居聚合方法，为经过L层传播后，组合个表示的层组合函数。
多成分通过将用户/商品表示分解为多个部分，学习如何从不同方面更好地建模不同的用户兴趣。具体来说，G GNN执行次独立的嵌入更新过程，得到个成分对应表示为，将它们组合起来得到最终表示，如下所示：

其中，为成分组合函数。
交互函数执行用户-商品匹配，并预测用户-商品对的评分，以反映用户偏好，如下所示：

其中，为交互函数，预测用户-商品对的评分为。

设计空间

基于以上的统一设计框架，我们提取了9个设计维度，它们分布于框架的4个模块中，在上图中被标红。如下表所示，每个设计维度有许多可选的设计选择。

现有工作所提出的模型架构在其设计上十分多样。例如，LightGCN[1]认为非线性激活无法为协同过滤带来收益，所以将其从模型架构中删除，而许多其他工作仍将其保留。不同的设计选择组合将得到不同的模型实例，具有不同的推荐性能。因此，在设计模型时，我们需要认真考虑各设计维度的具体选择。为探讨不同设计维度的影响，我们提出对基于GNN的CF设计空间进行研究，将其定义为多个设计维度的笛卡尔积。请注意，我们的目的不是提出最完整的设计空间，而是获得基于GNN的CF不同设计维度对于推荐性能影响的理解，并为高性能模型的高效设计提供帮助。事实上，通过纳入更多设计维度、扩大设计选择范围，设计空间可自然地得到扩展。

下面我们将对一些重要的设计维度进行解释，其余维度含义请参见上表。

消息函数 ：在相关文献中，最常用的做法是直接采用，而一些工作认为源节点与目标节点之间的交互也应该被编码进消息中，因此，我们也考虑了的情况，其中代表两向量的哈达玛积。以上两个设计选择被分别表示为Identity和Hadamard。
聚合函数 ：在这一维度上，我们考虑四种常见而有效的GNN方法作为其设计选择：GCN、GAT、GIN和GraphSAGE。特别地，我们将此维度进行扩展，包括None的选择，表示不利用图信息，通过MLP更新用户/商品表示，使得设计空间能够包括非GNN模型。
层组合函数 ：Stack表示将多个GNN层直接叠加，利用最后一层的输出，得到用户/商品表示。由于一些工作发现中间层输出对任务同样有用，我们将研究其他三种层组合方法：Concat、Sum以及Mean。
成分聚合函数 ：现有工作使用的一种直接策略是将各成分的表示连接起来，记作Concat。也可使用注意力机制进行聚合，记作Att。此外，我们增加取均值作为设计选择，记作Mean。
交互函数 ：一个简单而有效的选择是计算用户和商品表示的点积，记为Dot Product。另外，神经网络也可以用来学习交互函数。用户和商品表示首先被连接起来或进行求和，然后被送入一个MLP进行预测，分别表示为Concat+MLP和Sum+MLP。

与现有CF方法的关系

下表展示了10个能被我们所提出设计空间覆盖的现有CF方法。这些方法可分为3类：（1）经典方法，主要包含MF及其变体；（2）基于MLP采用神经网络的CF算法；（2）基于GNN增强CF的方法。有关不同方法如何被设计空间覆盖的详细解释请参见原文。

我们可以看到，以上的设计框架统一了现有CF模型中的关键设计维度，所提出的设计空间足够全面，能够广泛包含大量模型实例。接下来，我们将对设计空间进行评估，以了解不同设计维度的影响。

3. 设计空间评估

数据集

如引言中所述，实际应用中的推荐场景是丰富多样的。为了使实验结果更加可信，我们在9个真实数据集上展开实验评估，这些数据集在规模（大或小）、密度（稠密或稀疏）以及所收集的领域等多个方面都是不同的。数据集统计信息如下表所示，详细描述和预处理方法请参见原文。

评估策略

我们提出的设计空间包含超过100,000个模型架构，进行完整的网格搜索来评估每个设计维度的成本过于高昂。为解决这一问题，我们采用受控随机搜索[2]作为设计空间评价策略。为使评估能分布于不同的数据集，我们首先将设计维度与数据集的笛卡尔积定义为配置空间，并在配置空间中进行受控随机搜索，得到具体实验配置。

如上图所示，假设我们想要评估消息函数这一维度进行评估，我们首先通过随机搜索配置空间绘制个实验配置，所有配置均有 Identity。然后，通过设置 Hadamard，同时控制所有其他维度不变，我们得到另个配置。现在，我们得到个小组，每组均含有2个实验配置，它们之间只有不同。在每组中，{Identity，Hadamard}中的2个设计选择按性能排序，如果性能差异小于0.0001，则排序持平。不同设计选择在所有组中的平均排名通过柱状图显示，如下图所示。在我们的实验中，我们设置，将实验数量从103,680减少到3,400，减少了30倍以上。

实验采用MSE作为评分预测的损失函数，RMSE作为性能评估指标。其他实验设置细节请参见原文。

评估结果

评估结果如上图所示，其中包含9个柱状图，每个分别描述每个设计维度上的不同选择在所有实验设置下的平均排名。该实验定量评估基于GNN的CF不同设计维度在不同推荐场景下对于推荐性能的总体影响。

我们的目的不是搜索单一最佳模型架构，而是探索能够丰富对设计维度理解的实验发现，并促进不同的推荐场景中高性能的基于GNN的CF模型的高效设计。以下列举了一些关键的实验发现，细节可参见原文：

GAT和 GraphSAGE优于其余GNN选择。有趣的是， None与其他基于GNN的聚合方法表现相当，这说明在一些场景下，简单采用MF或基于MLP的CF方法能与GNN模型达到相当甚至更好的性能。这一有趣的发现提醒我们图信息对于CF并不总是有利的。
Sigmoid在所有6种激活函数中表现明显突出。
在考虑多成分时，将成分数设为4是较好的选择，且最好使用 Att机制将不同成分的表示进行结合。
采用基于神经网络的交互函数优于采用点积。

上述发现不仅丰富了我们对不同设计维度影响的理解，而且为有效设计高性能模型提供了有价值的指导。具体来说，我们可以观察到原设计空间存在一定的冗余。例如，初始嵌入维数可以固定为64，因为它显著优于其他2个选择。这提示我们可以对原有的设计空间进行进一步的压缩，提高其质量，从而提高性能模型的搜索效率。

4. 压缩设计空间的评估

根据上述发现，我们通过缩小设计维度的取值范围来压缩原设计空间。我们只保留那些表现较好的设计选择，这些选择在经验上更有可能产生性能良好的模型。因此，压缩后的设计空间包含了更高比例的高性能模型，这会有利于模型搜索。

压缩设计空间

压缩设计空间的设计维度取值如下表。

经过压缩后，设计空间中只剩余96个候选模型，而原空间中则有103,680个，设计空间的规模减少了三个数量级（1,080x）。与原设计空间相比，压缩设计空间的优势在于，它通过排除次优选择简化了设计维度的组合，从而包含了更高比例的高性能模型，这些模型在多种场景下表现良好，便于高效搜索。压缩后的设计空间在不同的推荐设置下始终表现出较高的质量，表明其具有较强的泛化能力。

评估

评估策略

我们使用RMSE经验分布函数（Emprical Distribution Function，EDF）[3]，通过刻画从设计空间中采样并训练个模型得到的RMSE分布来量化评估设计空间的质量。

假设为指示函数，为采样模型数量，每个模型的RMSE指标为。那么，RMSE EDF可由下式定义：

$F(x)=\frac{1}{n} \sum_{i=1}^{n} 1\left[x_{i}<x\right].$

F(x)

代表RMSE低于的模型比例。使用EDF作为设计空间质量评估指标的出发点在于，相较于比较空间中的单个最佳模型，比较模型分布能够帮助我们获得更加鲁棒和有价值的结论。

泛化性评估

证明压缩后的设计空间可以促进不同场景下的模型设计，我们设置了3种不同推荐场景，比较压缩前后设计空间的EDF曲线。

不同数据集密度（Yelp（左），Amazon-Beauty（中），MovieLens-1M（右））：

不同模型复杂度（低（左），高（右））:

新数据集上的泛化性（Epinions（左），Amazon-Sports（右））：

实验结果表明，在以上3种推荐设置下，压缩后设计空间的质量始终优于原设计空间，说明其在新场景中的泛化性较强。

案例研究：随机搜索

我们在压缩设计空间中进行模型随机搜索，进一步验证其较高的高性能模型的比例对于新场景下的模型搜索是否有利。下表展示了在两个新数据集（Epinions及Amazon-Sports）上搜得的最佳模型架构。

我们将搜得模型与当前先进CF基线方法做性能比较，结果如下：

可以观察到，从压缩设计空间随机搜得的模型在两个数据集上的性能始终优于所有基线方法，这说明高质量的设计空间有利于新推荐场景中高性能模型的高效设计。此外，我们注意到，没有一个基线方法能始终击败其他竞争对手，这表明为不同场景设计高性能模型不是一项简单的任务，并强调了探索设计空间以提高模型设计效率的重要性。

5. 讨论

最近，针对图的神经架构搜索（Neural Architecture Search，NAS）逐渐成为一个备受关注的研究方向，需要说明的是，（1）NAS可被认为由设计空间及搜索算法两部分构成，许多工作[4, 5, 6]针对GNN模型架构的自动搜索算法提出了不同的解决方案，而我们则侧重于高质量、泛化性强的设计空间研究，与前述工作呈正交关系；（2）NAS关注单一最佳模型架构的搜索，而设计空间则可被认为是多个模型架构组成的分布，相比前者，对于模型分布的研究能够帮助我们获得鲁棒性与泛化性更强的结论。

6. 结论

在本文中，我们提出了对基于GNN的CF设计空间展开研究。通过使用一个统一设计框架描述现有基于GNN的CF方法，我们创新性地定义了其设计空间，并采用受控随机搜索，高效且有效地评估了不同维度对推荐性能的影响。此外，基于评估结果，我们通过排除次优设计选择来进行设计空间压缩。在不同推荐场景下的实验表明，压缩后的设计空间具有较高的质量和较强的泛化能力。最后，案例研究结果展示，我们在压缩设计空间中仅通过简单的随机搜索，就能在两个新的数据集上快速获得性能超越目前先进的CF方法的模型架构。因此，我们认为，探索设计空间这一新范式能够推动不同推荐场景下高性能GNN模型的高效设计。