作者:
Zhen Yang, Ming Ding, Xu Zou, Jie Tang, Bin Xu, Chang Zhou and Hongxia Yang. Region or Global?
A Principle for Negative Sampling in Graph-based Recommendation. IEEE Transaction on Knowledge and Data Engineering (TKDE'22).
Paper:
http://keg.cs.tsinghua.edu.cn/jietang/publications/TKDE22-Yang-et-al-Negative%20Sampling.pdf
Code & Data:
https://github.com/zyang-16/RecNS
近年来,推荐系统的研究亮点从协同过滤(CF)发展到基于图的推荐。基于图的推荐将用户-商品交互建模为用户-商品图,并利用图神经网络(GNN)将结构信息整合到用户/商品嵌入学习中。其关键点是学习高质量的嵌入并根据学习到的嵌入表示估计用户-商品交互的可能性。然而,基于图的推荐中仍然存在一个关键挑战,即在用户-商品图中仅观察到正对,而其他未连接的商品被视为未观察到负对。严重的是,全局未观察到的商品的数量通常很大,并且计算所有未观察到负对是不切实际的。负采样是解决这个问题的重要技术。
负采样在之前的工作中被广泛采用,采样策略只涉及从全局未观察到的商品区域中挑选一小部分商品作为负样本,并训练模型以区分正样本与负样本。然而,这些基于图的推荐工作只关注负采样分布的设计,忽略了 GNN 信息传播机制中采样区域的选择。
基于此,我们提出了三区域原则从中间区域中采样负样本,它提供了一个原则来回答哪个区域应该被认为是候选负区域。三区域原则的示意图如下图所示,我们将商品划分为三个区域:邻阶区域(adjacent region)、中间区域(intermediate region)和远阶区域(distant region)。根据不同区域的特性,我们提出应该在中间区域对商品进行负采样,而对相邻和距离较远的商品进行较少甚至不进行负采样。三区域原则是指导候选负样本区域选择的一般原则,它利用图结构而不是过度平滑来采样负样本。
在三区域原则的指导下,我们提出了一种有效的负采样策略(RecNS)来采样负样本,可以直接插入现有的基于图的推荐模型,如 PinSage、NGCF 和 LightGCN 。为了挖掘基于图的推荐中的 hard 负样本,RecNS 设计了两种策略:正辅助采样(称为 RecNS-O)和曝光增强采样(称为 RecNS-W)。在正辅助抽样中,我们平衡了中心用户和正样本(正商品)对负采样的影响。在曝光增强采样中,我们将曝光信息合并到负采样中。最后,我们在嵌入空间中合并正辅助采样和曝光增强采样,以生成最终的负样本的嵌入表示。RecNS 的示意图如下所示:
我们选择 PinSage、NGCF 和 LightGCN 作为基本的 GNN 编码器,在 Zhihu 和 Alibaba 数据集上进行了验证实验。实验表明,与 UniNS、PopNS、AdvNS、DNS、SimNS 和 MCNS 负采样方法相比,RecNS 能带来显著的推荐性能提升。此外,我们还将 RecNS 与 SRNS 进行了比较,SRNS 利用 memory 来保存候选的负样本并利用方差来解决假负样本问题(false negative problem)。RecNS 相较于 SRNS,在推荐性能上获得了一定的提升,原因在于 RecNS 利用曝光信息进行采样以缓解假负样本问题,并应用三区域原则来提供更多信息的候选负样本。在Alibaba数据集上,就 Recall@20 而言,RecNS 在 Pinsage 上的平均增益为 10.47%,在 NGCF 上为 6.02%,在 LightGCN 上为 8.20%。
为了验证三区域原则的影响,我们设计了一个扩展实验,从三个区域(包括中间区域、远阶区域和全局未观察区域)中采样 M 个候选负项。实验结果表明,仅从远阶区域采样会导致灾难性后果,这说明远阶区域中的商品对推荐性能没有积极贡献。因此,我们应该避免从远阶区域采样负样本。同样,从全局未观察到的区域进行采样会导致性能下降,因为全局区域无法区分中间区域和远阶区域。
点击【阅读原文】查看paper