微信看一看系统中如何基于元学习预热冷启动?丨SIGIR-2021

2021 年 8 月 11 日 微信AI


本文基于SIGIR-2021论文《Learning to Warm Up Cold Item Embeddings for Cold-start Recommendation with Meta Scaling and Shifting Networks》,论文作者来自中科院计算所、腾讯微信、北航等。

*论文链接:https://arxiv.org/abs/2105.04790


导语


近年来,向量嵌入(embedding)的技术在推荐系统领域取得了广泛的应用。然而,向量嵌入技术需要大量训练数据,而现实中的长尾分布会导致严重的冷启动问题。对于只有极少数交互的冷启动物品,模型往往很难训练一个合理的值得信赖的物品ID embedding,因此也难以被推荐系统分发,形成负反馈。


这个问题被称作冷启动ID embedding问题。这篇文章针对冷启动ID embedding提出了一种基于元学习的方法,通过meta scaling and shifting技术,探索并解决了推荐系统中如何预热冷启动物品ID embedding的问题。



背景介绍


随着个性化线上app的增长,推荐系统被线上服务广泛采用,比如电商、线上新闻等等。传统的协同过滤的方法可以学习用户的兴趣偏好,并且在推荐系统上取得了显著的效果。


最近的研究表示深度神经网络可以进一步提升推荐系统的效果。这些深度推荐模型通常采用向量嵌入(embedding)的技术。这些模型可以分为两个部分,向量嵌入层和深度模型。向量嵌入层通常将原始特征转化为低维向量表示。


其中,物品的ID的向量表示称作ID embedding。每个物品都有一个独特的ID,因此ID embedding也是物品独一无二的向量表示。一个好的ID embedding可以大幅度提升推荐的效果。深度推荐模型将所有特征转化为向量后送入深度模块,给出最终的预测。


然而这些深度推荐模型需要大量数据,并且面临严重的冷启动问题。具体来说,冷启动的物品通常只有少量的交互数据,因此很难学到一个合理的物品ID embedding,我们把这样的表示称作冷启动ID embedding。由于冷启动ID embedding的问题,导致推荐系统很难将冷启动物品推荐给合适的用户。我们分析冷启动ID embedding主要存在两个问题:


1、冷启动ID embedding和深度模型之间存在着gap。在推荐系统中,存在一个众所周知的现象,少量热门物品占据了大量交互样本,而大量冷启动物品只有少量交互数据。深度模型是在所有数据上进行训练,因此这个模型会学到大量来自热门物品的知识。而冷启动ID embedding仅仅在特定物品的交互数据上训练,因此冷启动ID embedding很难拟合这个深度模型。所以针对冷启动物品如何加速模型的拟合是至关重要的(fast adaptation)。

2、冷启动物品ID embedding会受到噪声的严重影响。在推荐系统中,随时都在出现错误的交互,比如错误点击。而物品ID embedding完全取决于该物品的交互数据。而冷启动物品通常只有很少的交互数据,因此很小的噪声也会对冷启动物品ID embedding造成严重的影响。


现在已经有一些尝试解决冷启动问题的方法。DropoutNet[1]将dropout用于控制推荐模型的输入,随机扔掉用户embedding或者物品embedding来模拟冷启动,并且使用所有交互过的用户表示来取代物品ID embedding。MetaEmb[2]学习一个生成器来使用物品特征来生成物品的初始化ID embedding。MeLU[3]学习一个全局参数来初始化个性化推荐模型,基于该初始化参数,在特定用户的交互数据上进行更新,得到个性化的模型。然而这些方法都没有同时考虑上述两个挑战。


为了解决上述的两个挑战,我们采用了两个关键点:(1)最近一些研究表明cold和warm的embedding特征空间不同[4],因此我们希望将冷启动ID embedding转换到warm特征空间中。(2)为了减缓噪声的影响,我们使用全局交互的用户表示来加强冷启动ID embedding。


在这篇文章中,我们将冷启动问题划分为两个阶段,cold-start阶段和warm-up阶段,cold-start阶段表示完全没有样本的情况,而warm-up阶段表示有少量样本的情况。


为了解决这两个阶段的冷启动问题,我们提出了Meta Warm Up Framework(MWUF),该框架可以用于不同的深度推荐模型。该框架包含一种公共初始化ID embedding以及两个meta networks。对于任何新来的物品,我们使用现有的物品embedding的均值来作为初始化。


另外,Meta Scaling Network使用物品的特征作为输入,生成一个定制化的拉伸函数将冷启动ID embedding转化为warmer embedding。Meta Shifting Network使用全局的交互过的用户作为输入,来生成一个偏移函数,来加强物品表示。


模型方法



整体框架如上所示,深度模型的输入包含4个部分,物品ID embedding,物品其他特征embedding,用户ID embedding,用户其他特征embedding:



Common Initial Embeddings: 我们提出了一种公共初始化embedding,使用现有的所有物品的ID embedding均值作为新加入的物品的初始化embedding。


Meta Scaling Network:我们希望将冷启动物品ID embedding转换到一个更好的特征空间,能更好地拟合深度模型。对于每一个物品,冷启动ID embedding和warm ID embedding之间存在一定的联系,我们认为相似的物品,这个联系也应该相似,因此Meta Scaling Network以物品的其他特征做为输入,输出一个拉伸函数:



Meta Shifting Network: 所有交互过的用户均值可以有效的减轻异常用户的影响,因此Meta Shifting Network以交互过的用户的均值表示作为输入,输出一个偏移函数:



最后转换后的物品ID embedding表示为:



整个训练流程分为两个阶段,第一个阶段训练推荐模型,第二个阶段训练两个meta network,流程如下所示:



实验


我们在三个数据集上进行了实验:


MovieLens-1M: 该数据集包含一百万条电影打分数据,我们将评分大于3的转换为标签1,评分小于等于3的为标签0.

Taobao Display Ad Click: 改数据包含1,114,000个用户在淘宝网上8天的两千六百万广告点击记录。

CIKM2019ECommAI: 这是一个电商推荐数据,用于CIKM2019挑战赛。


我们比较了三类方法,包括常见的协同过滤方法FM、Wide & Deep、PNN、DCN、AFN。冷启动方法DropoutNet、MeLU、MetaEmb。以及序列推荐的方法GRU4Rec、DIN(我们把序列模块用到item侧)。并且我们把冷启动根据样本量分为了四个阶段。实验结果如下所示,可以看到我们的方法在不同数据集,不同设定下都取得了最优的结果。



另外,我们的方法和MetaEmb都是通用的方法,可以用于不同的深度推荐模型。因此,我们把这两个方法用不同的模型作为base model进行实验,得到结果如下,可以看到在不同任务下,我们的方法都是优于MetaEmb的。实验证明了我们方法的通用性和有效性。



最后,我们做了消融实验,验证了我们提出的每个部分都是有用的。



总结


这篇文章我们研究了推荐冷启动中的item预热问题。我们发现冷启动ID embedding和深度模型之间存在着gap,并且冷启动ID embedding会受到噪声的影响。


因此我们提出了一种通用普适的冷启动item embedding预热初始化的方法,同时提出了两个meta networks来将冷启动ID embedding转换到更好的特征空间。多个数据集上的实验证明我们的方法是一种高效且通用的方法,值得在线上冷启动系统中进行尝试。


参考文献


[1] Volkovs M, Yu G W, Poutanen T. DropoutNet: Addressing Cold Start in Recommender Systems[C]//NIPS. 2017: 4957-4966.


[2] Pan F, Li S, Ao X, et al. Warm up cold-start advertisements: Improving ctr predictions via learning to learn id embeddings[C]//Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2019: 695-704.


[3] Lee H, Im J, Jang S, et al. MeLU: meta-learned user preference estimator for cold-start recommendation[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 1073-1082.


[4] Chen Z, Xiao R, Li C, et al. Esam: Discriminative domain adaptation with non-displayed items to improve long-tail performance[C]//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2020: 579-588.


微信AI

不描摹技术的酷炫,不依赖拟人的形态,微信AI是什么?是悄无声息却无处不在,是用技术创造更高效率,是更懂你。


微信AI关注语音识别与合成、自然语言处理、计算机视觉、工业级推荐系统等领域,成果对内应用于微信翻译、微信视频号、微信看一看等业务,对外服务王者荣耀、QQ音乐等产品。


登录查看更多
2

相关内容

冷启动关注的是产品早期获取早期核心用户,以及如何运营的问题。
【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路
【KDD2021】微信看一看基于元学习的内容定向推广简述
专知会员服务
13+阅读 · 2021年8月16日
专知会员服务
25+阅读 · 2021年6月9日
专知会员服务
95+阅读 · 2021年5月25日
专知会员服务
41+阅读 · 2021年3月21日
【AAAI2021】元学习器的冷启动序列推荐
专知会员服务
40+阅读 · 2020年12月19日
专知会员服务
87+阅读 · 2020年1月20日
KDD21 | 如何纠正推荐系统中的流行度偏差
图与推荐
1+阅读 · 2021年11月25日
WSDM2022 | 跨领域推荐中的个性化迁移用户兴趣偏好
机器学习与推荐算法
1+阅读 · 2021年11月3日
SIGIR 2021 | 推荐系统中的多行为建模
PaperWeekly
1+阅读 · 2021年10月9日
深度 | 推荐系统如何冷启动?
AI100
17+阅读 · 2019年4月7日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年4月19日
Cold-start Sequential Recommendation via Meta Learner
Arxiv
15+阅读 · 2020年12月10日
Arxiv
13+阅读 · 2020年4月12日
VIP会员
相关VIP内容
【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路
【KDD2021】微信看一看基于元学习的内容定向推广简述
专知会员服务
13+阅读 · 2021年8月16日
专知会员服务
25+阅读 · 2021年6月9日
专知会员服务
95+阅读 · 2021年5月25日
专知会员服务
41+阅读 · 2021年3月21日
【AAAI2021】元学习器的冷启动序列推荐
专知会员服务
40+阅读 · 2020年12月19日
专知会员服务
87+阅读 · 2020年1月20日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员