CIKM2021 | 将对比学习用于解决推荐系统长尾问题

2022 年 1 月 14 日 机器学习与推荐算法
嘿,记得给“机器学习与推荐算法”添加星标

| 作者:Sybil Wu
| 单位:明略科技集团
| 研究方向:NLP、推荐算法
| 链接:https://zhuanlan.zhihu.com/p/443825382

本文主要分享一下 Google 发表于 CIKM 2021 的文章如何采用对比学习解决推荐长尾问题


论文标题:

Self-supervised Learning for Large-scale Item Recommendations

论文链接:

https://arxiv.org/abs/2007.12865



先来个定义


长尾效应:20% 的热门 item 占据了 80% 的曝光量,剩下 80% 的小众、长尾 item 得不到多少曝光机会,自然在训练样本中也是少数、弱势群体。

一般的推荐模型是迎合多数人群的,长尾的 item 曝光机会少,就导致小众兴趣难以满足,这对一个成熟的生态系统来说,不利于用户增长。

场景举例:有些原来不受到重视的销量小但种类多的商品,由于总量巨大,累积起来的总收益超过了主流商品。这种情况下,算法挖掘小众兴趣的能力显得尤为重要。


对比学习


对于样本不均衡的问题,一般首要想到的办法是做数据增强(data augumentation), 对比学习的核心就是采用数据增强构建正负变体,倾向于无监督学习,学习一个比较好的特征提取器。推荐系统中引入对比学习用于推荐 debias,解决“少数人群+冷门物料,标注样本少”的问题,从逻辑上看是可行的。

《Self-supervised Learning for Large-scale Item Recommendations》, 就是利用对比学习辅助训练双塔召回模型,目的是让 item tower 对冷门、小众 item 也能够学习出高质量的 embedding,从而改善内容生态。从公式上看,可以理解为将对比学习的 loss 作为主任务 loss 的一个正则项。




论文解读


小 Q 认为论文中有两个核心的技术点,一个在对比学习部分,另一个在联合训练部分。

3.1 数据增强


在对比学习数据增强部分,论文提出对于 item 特征的数据增强分为两个步骤:Masking 和 Dropout,其中 masking 是采用默认 embedding 随机掩盖一些输入特征,dropout 就是简单的随机丢失一些输入特征。

3.2 Random Feature Masking(RFM)


文中定义了一个 baseline Random Feature Masking(RFM),采用互补 masking 模式,即将特征集拆分为两个互斥特征集,构建为两个扩展变体。具体来说,将特征集随机分成两个不相交的子集。大致结构如下:



  • 某个 item xi, 随机抽取一半的特征 h,得到变体 yi,再经过 Encoder H,得到向量 zi;保留剩下的另一半特征 g,得到变体 yi’,再经过 Encoder G,得到向量 zi’。

  • 来自同一个 item xi 的两种变体对应的 embedding zi 和 zi’,两者之间的相似度应该越大越好。
  • 按照同样的作法,另一个 item xj,用一半特征 h 得到变体,再经过  Encoder H 得到 yj;用另一半特征 g,得到变体,再经过 Encoder G 得到 yj’。
  • 来自不同 item 的变体对应的 embedding,两者之间的相似度应该越低越好。


3.3 Correlated Feature Masking(CFM)


论文基于信息论中的互信息,提出了 Correlated Feature Masking(CFM)方法,这个方法每个 batch 进行训练时,先会随机选取一个特征 f_seed , 然后选择 topn(n 为 item 的特征总数的一半)构建一个特征集做为变体。

3.4 为什么采用 CFM


此处楼主小 Q 主要想讨论一下的是:为什么要采用互补 masking 模式构建对比学习的变体呢,为什么采用互信息高的特征集会比随机 masking 效果好呢。

在论文中有这么一段描述:

For instance, the SSL contrastive learning task may exploit the shortcut of highly correlated features 
between the two augmented examples, making the SSL task too easy.

从字面意思看,是说随机 masking 可能有一些高度相关的 feature 分到两个变体中, CL Train 的就太 easy 了,所以要加大一下难度的样子。

hmmm,查了一些资料,没找到更详细的解析了,大致意思是由于物品的不同特征可能存在着一些关联性,随机 masking 可能会使得模型在对比学习的过程中,通过关联度较高的特征来“猜”出被 mask 的特征,使得任务训练变得简单。

这里小 Q 尝试举个例子,来强行解释一下吧,假设:item 是个商品,它有品类,品牌,产品系列,价格等特征,假设“品牌”被拆分到变体 h 中,“产品系列”被拆分到变体 g 中,看上去两个变体都是不同的,但是两个特征包含的隐信息其实没太大区别,最终两个变体的 embedding 太容易相似,就不到训练模型的目的。至于为什么要采用互补 masking 模式,大致也是为了保证变体的差异性。


3.5 联合训练


做完对比学习,下一个步骤就是联合训练了 ,先上个论文中的模型图:


从上图可以看出,整个 item tower 是被 user-item 双塔召回的主任务、对比学习辅助任务中的 encoder H 和 G,这三者所共享的。

论文的第二个重点来了,“We sample items uniformly from the corpus for Lself " ,论文中明确表示参与对比学习的样本,和参与主任务的样本,来自不同的样本空间。主任务,需要拟合用户与 item 之间的真实互动,还是以已经曝光过的 user/item 为主。对比学习部分,是为了消除推荐长尾问题,主要是要关注曝光率低的 item。

参考资料

[1] 石塔西:少数派报告:谈推荐场景下的对比学习:https://zhuanlan.zhihu.com/p/435903339

[2] 推荐场景下的对比学习总结

[3] 基于对比学习的推荐算法总结 

[4] self-supervised learning for large-scale item recommendations: https://blog.csdn.net/m0_37924639/article/details/121078066

欢迎干货投稿 \ 论文宣传 \ 合作交流

推荐阅读

基于深度强化学习的推荐算法论文集锦
AAAI2022推荐系统论文集锦
2022年最新《图神经网络综述》

由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容, 请将本号设为星标,以及常点文末右下角的“在看”。

喜欢的话点个在看吧👇
登录查看更多
4

相关内容

通过潜在空间的对比损失最大限度地提高相同数据样本的不同扩充视图之间的一致性来学习表示。对比式自监督学习技术是一类很有前途的方法,它通过学习编码来构建表征,编码使两个事物相似或不同
【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路
图嵌入推荐系统技术综述,64页pdf422篇文献
专知会员服务
63+阅读 · 2021年9月22日
专知会员服务
37+阅读 · 2021年5月28日
【WWW2021】场矩阵分解机推荐系统
专知会员服务
31+阅读 · 2021年2月27日
【AAAI2021】预训练用户表示提升推荐
专知会员服务
43+阅读 · 2021年2月8日
【KDD2020】 解决基于图神经网络的会话推荐中的信息损失
专知会员服务
31+阅读 · 2020年10月29日
专知会员服务
73+阅读 · 2020年9月1日
专知会员服务
87+阅读 · 2020年1月20日
当推荐系统遇上多模态Embedding
机器学习与推荐算法
2+阅读 · 2022年4月14日
WWW'21 | 基于图的视角学习推荐系统的公平表征
图与推荐
0+阅读 · 2021年12月11日
CIKM21 | 图+推荐系统: 比LightGCN更有效的UltraGCN
机器学习与推荐算法
2+阅读 · 2021年11月30日
KDD21 | 如何纠正推荐系统中的流行度偏差
图与推荐
1+阅读 · 2021年11月25日
综述 | 推荐系统里预训练模型
图与推荐
1+阅读 · 2021年11月23日
CIKM2021推荐系统论文集锦
机器学习与推荐算法
1+阅读 · 2021年10月20日
对比学习+图神经网络=更好的推荐系统?
图与推荐
0+阅读 · 2021年9月16日
CIKM2020推荐系统论文集合
机器学习与推荐算法
10+阅读 · 2020年10月13日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Cold-start Sequential Recommendation via Meta Learner
Arxiv
15+阅读 · 2020年12月10日
Arxiv
13+阅读 · 2020年4月12日
VIP会员
相关VIP内容
【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路
图嵌入推荐系统技术综述,64页pdf422篇文献
专知会员服务
63+阅读 · 2021年9月22日
专知会员服务
37+阅读 · 2021年5月28日
【WWW2021】场矩阵分解机推荐系统
专知会员服务
31+阅读 · 2021年2月27日
【AAAI2021】预训练用户表示提升推荐
专知会员服务
43+阅读 · 2021年2月8日
【KDD2020】 解决基于图神经网络的会话推荐中的信息损失
专知会员服务
31+阅读 · 2020年10月29日
专知会员服务
73+阅读 · 2020年9月1日
专知会员服务
87+阅读 · 2020年1月20日
相关资讯
当推荐系统遇上多模态Embedding
机器学习与推荐算法
2+阅读 · 2022年4月14日
WWW'21 | 基于图的视角学习推荐系统的公平表征
图与推荐
0+阅读 · 2021年12月11日
CIKM21 | 图+推荐系统: 比LightGCN更有效的UltraGCN
机器学习与推荐算法
2+阅读 · 2021年11月30日
KDD21 | 如何纠正推荐系统中的流行度偏差
图与推荐
1+阅读 · 2021年11月25日
综述 | 推荐系统里预训练模型
图与推荐
1+阅读 · 2021年11月23日
CIKM2021推荐系统论文集锦
机器学习与推荐算法
1+阅读 · 2021年10月20日
对比学习+图神经网络=更好的推荐系统?
图与推荐
0+阅读 · 2021年9月16日
CIKM2020推荐系统论文集合
机器学习与推荐算法
10+阅读 · 2020年10月13日
相关基金
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员