基于图的推荐中的负采样原则 | 论文荐读

2022 年 3 月 15 日 学术头条

作者:

Zhen Yang, Ming Ding, Xu Zou, Jie Tang, Bin Xu, Chang Zhou and Hongxia Yang. Region or Global? 

A Principle for Negative Sampling in Graph-based Recommendation. IEEE Transaction on Knowledge and Data Engineering (TKDE'22).


Paper: 

http://keg.cs.tsinghua.edu.cn/jietang/publications/TKDE22-Yang-et-al-Negative%20Sampling.pdf 


Code & Data: 

https://github.com/zyang-16/RecNS 

 

近年来,推荐系统的研究亮点从协同过滤(CF)发展到基于图的推荐。基于图的推荐将用户-商品交互建模为用户-商品图,并利用图神经网络(GNN)将结构信息整合到用户/商品嵌入学习中。其关键点是学习高质量的嵌入并根据学习到的嵌入表示估计用户-商品交互的可能性。然而,基于图的推荐中仍然存在一个关键挑战,即在用户-商品图中仅观察到正对,而其他未连接的商品被视为未观察到负对。严重的是,全局未观察到的商品的数量通常很大,并且计算所有未观察到负对是不切实际的。负采样是解决这个问题的重要技术。


负采样在之前的工作中被广泛采用,采样策略只涉及从全局未观察到的商品区域中挑选一小部分商品作为负样本,并训练模型以区分正样本与负样本。然而,这些基于图的推荐工作只关注负采样分布的设计,忽略了 GNN 信息传播机制中采样区域的选择。


基于此,我们提出了三区域原则从中间区域中采样负样本,它提供了一个原则来回答哪个区域应该被认为是候选负区域。三区域原则的示意图如下图所示,我们将商品划分为三个区域:邻阶区域(adjacent region)、中间区域(intermediate region)和远阶区域(distant region)。根据不同区域的特性,我们提出应该在中间区域对商品进行负采样,而对相邻和距离较远的商品进行较少甚至不进行负采样。三区域原则是指导候选负样本区域选择的一般原则,它利用图结构而不是过度平滑来采样负样本。

在三区域原则的指导下,我们提出了一种有效的负采样策略(RecNS)来采样负样本,可以直接插入现有的基于图的推荐模型,如 PinSage、NGCF 和 LightGCN 。为了挖掘基于图的推荐中的 hard 负样本,RecNS 设计了两种策略:正辅助采样(称为 RecNS-O)和曝光增强采样(称为 RecNS-W)。在正辅助抽样中,我们平衡了中心用户和正样本(正商品)对负采样的影响。在曝光增强采样中,我们将曝光信息合并到负采样中。最后,我们在嵌入空间中合并正辅助采样和曝光增强采样,以生成最终的负样本的嵌入表示。RecNS 的示意图如下所示:

我们选择 PinSage、NGCF 和 LightGCN 作为基本的 GNN 编码器,在 Zhihu 和 Alibaba 数据集上进行了验证实验。实验表明,与 UniNS、PopNS、AdvNS、DNS、SimNS 和 MCNS 负采样方法相比,RecNS 能带来显著的推荐性能提升。此外,我们还将 RecNS 与 SRNS 进行了比较,SRNS 利用 memory 来保存候选的负样本并利用方差来解决假负样本问题(false negative problem)。RecNS 相较于 SRNS,在推荐性能上获得了一定的提升,原因在于 RecNS 利用曝光信息进行采样以缓解假负样本问题,并应用三区域原则来提供更多信息的候选负样本。在Alibaba数据集上,就 Recall@20 而言,RecNS 在 Pinsage 上的平均增益为 10.47%,在 NGCF 上为 6.02%,在 LightGCN 上为 8.20%。

为了验证三区域原则的影响,我们设计了一个扩展实验,从三个区域(包括中间区域、远阶区域和全局未观察区域)中采样 M 个候选负项。实验结果表明,仅从远阶区域采样会导致灾难性后果,这说明远阶区域中的商品对推荐性能没有积极贡献。因此,我们应该避免从远阶区域采样负样本。同样,从全局未观察到的区域进行采样会导致性能下降,因为全局区域无法区分中间区域和远阶区域。

点击【阅读原文】查看paper

登录查看更多
1

相关内容

自然语言处理领域中,判断两个单词是不是一对上下文词(context)与目标词(target),如果是一对,则是正样本,如果不是一对,则是负样本。采样得到一个上下文词和一个目标词,生成一个正样本(positive example),生成一个负样本(negative example),则是用与正样本相同的上下文词,再在字典中随机选择一个单词,这就是负采样(negative sampling)。
专知会员服务
12+阅读 · 2021年8月8日
专知会员服务
36+阅读 · 2021年4月18日
专知会员服务
37+阅读 · 2020年11月24日
专知会员服务
73+阅读 · 2020年9月1日
近期必读的6篇顶会WWW2020【推荐系统】相关论文-Part3
专知会员服务
57+阅读 · 2020年4月14日
近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2
专知会员服务
69+阅读 · 2020年4月7日
SelfKG: 自监督知识图谱实体对齐 | 论文荐读
学术头条
5+阅读 · 2022年4月8日
STAM: 一种基于GNN推荐的时空聚合方法 | 论文荐读
论文浅尝 | DSKReG:基于关系GNN的推荐知识图谱可微抽样
开放知识图谱
1+阅读 · 2022年3月15日
负采样,yyds!
夕小瑶的卖萌屋
0+阅读 · 2022年2月17日
WSDM2022推荐系统论文集锦
机器学习与推荐算法
1+阅读 · 2022年1月19日
WSDM'22「微软」图学习如何用于会话推荐?
图与推荐
0+阅读 · 2022年1月18日
CIKM2021推荐系统论文集锦
机器学习与推荐算法
1+阅读 · 2021年10月20日
论文荐读:理解图表示学习中的负采样
学术头条
28+阅读 · 2020年5月29日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2010年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
27+阅读 · 2020年6月19日
VIP会员
相关VIP内容
专知会员服务
12+阅读 · 2021年8月8日
专知会员服务
36+阅读 · 2021年4月18日
专知会员服务
37+阅读 · 2020年11月24日
专知会员服务
73+阅读 · 2020年9月1日
近期必读的6篇顶会WWW2020【推荐系统】相关论文-Part3
专知会员服务
57+阅读 · 2020年4月14日
近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2
专知会员服务
69+阅读 · 2020年4月7日
相关资讯
SelfKG: 自监督知识图谱实体对齐 | 论文荐读
学术头条
5+阅读 · 2022年4月8日
STAM: 一种基于GNN推荐的时空聚合方法 | 论文荐读
论文浅尝 | DSKReG:基于关系GNN的推荐知识图谱可微抽样
开放知识图谱
1+阅读 · 2022年3月15日
负采样,yyds!
夕小瑶的卖萌屋
0+阅读 · 2022年2月17日
WSDM2022推荐系统论文集锦
机器学习与推荐算法
1+阅读 · 2022年1月19日
WSDM'22「微软」图学习如何用于会话推荐?
图与推荐
0+阅读 · 2022年1月18日
CIKM2021推荐系统论文集锦
机器学习与推荐算法
1+阅读 · 2021年10月20日
论文荐读:理解图表示学习中的负采样
学术头条
28+阅读 · 2020年5月29日
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2010年12月31日
Top
微信扫码咨询专知VIP会员