Deep candidate generation (DCG) that narrows down the collection of relevant items from billions to hundreds via representation learning is essential to large-scale recommender systems. Standard approaches approximate maximum likelihood estimation (MLE) through sampling for better scalability and address the problem of DCG in a way similar to language modeling. However, live recommender systems face severe unfairness of exposure with a vocabulary several orders of magnitude larger than that of natural language, implying that (1) MLE will preserve and even exacerbate the exposure bias in the long run in order to faithfully fit the observed samples, and (2) suboptimal sampling and inadequate use of item features can lead to inferior representations for the unfairly ignored items. In this paper, we introduce CLRec, a Contrastive Learning paradigm that has been successfully deployed in a real-world massive recommender system, to alleviate exposure bias in DCG. We theoretically prove that a popular choice of contrastive loss is equivalently reducing the exposure bias via inverse propensity scoring, which provides a new perspective on the effectiveness of contrastive learning. We further employ a fixed-size queue to store the items' representations computed in previously processed batches, and use the queue to serve as an effective sampler of negative examples. This queue-based design provides great efficiency in incorporating rich features of the thousand negative items per batch thanks to computation reuse. Extensive offline analyses and four-month online A/B tests in Mobile Taobao demonstrate substantial improvement, including a dramatic reduction in the Matthew effect.


翻译:通过代表制学习将相关物品的收集从数十亿减少到数百个的深度候选人一代(DCG),通过代表制学习将相关物品的收集从数十亿缩小到数百个,这对于大规模推荐制度至关重要。标准做法通过抽样估计,可能达到最大可能性估计(MLE),以便更便于缩放,并以类似于语言模型的方式解决DCG的问题。然而,现场推荐者系统面临严重不公平的暴露,使用比自然语言大得多的词汇数量级,意味着(1) MLE将保持甚至加剧长期的暴露偏差,以便忠实地适应所观察到的样本;(2) 物品特征的不优化取样和不当使用可能导致不公平被忽视物品的描述出现劣势。 在本文件中,我们引入了CLRec,即一种对比性学习模式,在现实世界大规模推荐系统中成功部署,以缓解DCG的暴露偏差。 我们理论上证明,大众选择对比性损失等于通过反偏差的偏差分评分来减少接触偏差,这为对比性学习的实效提供了新的视角。我们进一步采用固定的排队排档,将产品展示在先前加工过的升级的系列/连续式中进行,包括大幅递减式的递增式的递增式计算。

0
下载
关闭预览

相关内容

最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
86+阅读 · 2020年12月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
对比学习(Contrastive Learning)相关进展梳理
PaperWeekly
10+阅读 · 2020年5月12日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Federated Learning in Multi-RIS Aided Systems
Arxiv
0+阅读 · 2021年7月8日
Arxiv
0+阅读 · 2021年7月7日
Arxiv
10+阅读 · 2021年3月30日
Arxiv
25+阅读 · 2021年3月20日
Arxiv
5+阅读 · 2020年10月21日
Arxiv
3+阅读 · 2020年2月12日
Arxiv
3+阅读 · 2018年12月21日
VIP会员
相关VIP内容
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
86+阅读 · 2020年12月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
相关资讯
对比学习(Contrastive Learning)相关进展梳理
PaperWeekly
10+阅读 · 2020年5月12日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Federated Learning in Multi-RIS Aided Systems
Arxiv
0+阅读 · 2021年7月8日
Arxiv
0+阅读 · 2021年7月7日
Arxiv
10+阅读 · 2021年3月30日
Arxiv
25+阅读 · 2021年3月20日
Arxiv
5+阅读 · 2020年10月21日
Arxiv
3+阅读 · 2020年2月12日
Arxiv
3+阅读 · 2018年12月21日
Top
微信扫码咨询专知VIP会员