最新基于强化学习的推荐系统综述

2021 年 9 月 10 日 机器学习与推荐算法
嘿,记得给“机器学习与推荐算法”添加星标

来自 | 专知

链接 | mp.weixin.qq.com/s/yOcWMmqddQPyEa2oROCzxQ

编辑 | 机器学习与推荐算法


祝老师们教师节节日快乐~

摘要

鉴于深度强化学习(DRL)在推荐系统研究中的出现,以及近年来取得的丰硕成果,本研究旨在对深度强化学习在推荐系统中的最新发展趋势提供一个及时而全面的概述。我们从在推荐系统中应用DRL的动机开始。然后,我们给出了当前基于DRL的推荐系统的分类,并对现有的方法进行了总结。我们讨论新出现的话题和未决的问题,并提供我们推进该领域的观点。本综述为来自学术界和工业界的读者提供了入门材料,并确定了进一步研究的显著机会。


链接: https://arxiv.org/abs/2109.03540
更多其他方向共38篇推荐系统综述,欢迎访问 https://github.com/hongleizhang/RSPapers#surveys


引言

近年来,推荐技术有了长足的发展,从传统的协同过滤、基于内容的推荐、矩阵分解等推荐技术[62],到基于深度学习的推荐技术。特别是深度学习在解决复杂任务和处理复杂数据方面具有很强的优势,因为深度学习能够捕捉非线性的用户-项目关系,能够处理图像、文本等各种类型的数据源。因此,它在推荐系统中得到了越来越多的应用。由于分布的变化,基于深度学习的推荐系统在捕获兴趣动态方面存在局限性[17,115],即训练阶段基于现有的数据集,这可能不能反映真实的用户喜好,而用户的喜好变化很快。而深度强化学习(deep reinforcement learning, DRL)的目标是将深度学习和强化学习的力量结合起来,训练出一种能够从环境提供的交互轨迹中学习的agent。由于DRL中的agent可以主动从用户的实时反馈中学习,从而推断出用户的动态偏好,因此DRL特别适合于从交互中学习,如人-机器人协作; 它还推动了一系列互动应用的显著进步,从视频游戏、Alpha Go到自动驾驶[3]。鉴于DRL对推荐系统的重要性和最近的进展,我们旨在在本次综述中及时总结和评论基于DRL的推荐系统。


最近的一项基于强化学习的推荐系统[2]综述了推荐系统中的强化学习,但没有对日益增长的深度强化学习领域进行复杂的研究。 我们综述重点在于系统全面地概述了基于DRL的推荐系统中的现有方法,并讨论了新出现的主题、未决问题和未来的方向。这项综述介绍了研究人员,实践者和教育工作者到这个主题,并促进了对该领域的关键技术的理解。


这项综述的主要贡献包括:


  • 我们提供关于推荐系统中深度强化学习的最新综合综述,具有最先进的技术和指向核心参考文献的指针。据我们所知,这是基于深度强化学习的推荐系统的第一个全面综述。


  • 我们给出了推荐系统中深度强化学习的文献分类。在概述分类和文献综述的同时,我们讨论了其优缺点,并对未来的研究方向提出了建议。


  • 我们阐明了基于DRL的推荐系统的新兴主题和开放问题。我们还指出了未来发展方向,这对推进基于DRL的推荐系统至关重要。


本综述的其余部分组织如下: 第2节概述了推荐系统、DRL及其集成。第3节提供了一个分类和分类机制的文献综述。第4节回顾了出现的话题,第5节指出了未解决的问题。最后,第6节为这一领域的进一步发展提供了一些有前景的未来方向。

深度学习和强化学习的结合推动了推荐系统的突破。基于DRL的RS由三个构建模块组成: 环境构建、状态表示和推荐策略学习。环境建设是基于使用者的一组历史行为来构建环境。状态表示由包含某些用户信息(包括历史行为、人口统计数据等)的环境提供。推荐策略学习是理解和预测用户未来行为的关键组成部分。基于DL的RS接收用户反馈(如评级或点击),以反映用户的兴趣并更新推荐人,而基于DRL的RS接收环境提供的奖励,以更新策略。环境提供的奖励是一个包含几个因素的预定义功能。基于DL的RS和基于drl的RS映射的详细过程如图3所示。



基于深度学习的推荐策略与基于DRL的推荐策略的区别:基于深度学习的推荐策略只能在训练阶段更新推荐策略。当用户的兴趣发生显著变化时,它们通常需要重新训练,这是计算效率低下的。基于DRL的RS将随着收到新的奖励而更新推荐策略。

未来挑战

在本节中,我们提供了一些基于DRL的推荐系统的潜在未来方向,得益于DRL研究的最新进展,我们相信这些主题可以推动基于DRL的推荐系统的进展。

因果与反事实推理


因果性是因果之间的一般关系。此外,在诸如计算式广告、搜索引擎和推荐系统[7]等许多应用中,推断因果效应是一个基本问题。近年来,一些研究者将强化学习与学习因果关系联系起来,以提高解决序列决策问题的效果。此外,强化学习框架中的学习主体面临着集成大量异构数据的复杂环境。从我们的观点来看,因果性可以通过引入因果的方向性来改善推荐结果。用户以前的选择会影响后续的操作。这可以被视为产生推荐系统动态的干预数据。通过将RL中的策略视为干预,我们可以检测RL中未被观察到的混杂因素,并选择预期奖励的策略,以更好地估计因果效应[82]。一些研究改进了以因果知识作为边信息的RL模型。另一种工作是使用因果推理方法来实现无偏的奖励预测[34]。


离线DRL和元DRL


推荐系统通常需要处理多个场景,如联合推荐和广告,离线DRL和元DRL为同时实现多个场景提供了一个很好的方向。离线DRL是一种新的DRL范式,它可以与现有的方法(如自我监督学习和迁移学习)相结合,向现实环境中移动。


结论


在这个综述中,我们提供了一个全面的概述深度强化学习在推荐系统中的使用。我们介绍了现有研究的分类方案,并按类别进行讨论。我们还提供了这些现有的新兴主题的概述,并指出了一些有前景的方向。我们希望这一综述能够对基于DRL的RS的关键概念提供系统的理解,并为未来的研究提供有价值的见解。


推荐阅读

KDD2019 | 强化学习优化推荐系统长期收益
强化学习推荐系统的模型结构与特点总结
RecNN | 基于强化学习的新闻推荐系统框架
基于深度强化学习的推荐算法论文集锦
喜欢的话点个在看吧👇
登录查看更多
6

相关内容

推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
对话推荐算法研究综述
专知会员服务
36+阅读 · 2022年4月4日
「深度学习注意力机制 」最新TKDE2022研究综述
专知会员服务
102+阅读 · 2022年3月29日
基于强化学习的推荐研究综述
专知会员服务
83+阅读 · 2021年10月21日
专知会员服务
48+阅读 · 2021年6月26日
专知会员服务
65+阅读 · 2020年9月24日
基于知识图谱的推荐系统研究综述
专知会员服务
327+阅读 · 2020年8月10日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
南洋理工大学,深度学习推荐系统综述
专知会员服务
174+阅读 · 2019年10月14日
推荐系统最新综述 | 涉及强化学习、图神经网络、可解释推荐等
机器学习与推荐算法
3+阅读 · 2022年3月30日
基于多目标优化的推荐系统综述
机器学习与推荐算法
6+阅读 · 2021年12月27日
对话推荐算法研究综述
机器学习与推荐算法
0+阅读 · 2021年11月26日
厦大最新《强化学习推荐系统》综述论文
机器学习与推荐算法
7+阅读 · 2021年9月24日
2019->2020必看的十篇「深度学习领域综述」论文
极市平台
23+阅读 · 2020年1月2日
综述 | 近5年基于深度学习的目标检测算法
计算机视觉life
38+阅读 · 2019年4月18日
深度学习在推荐系统上的应用
架构文摘
13+阅读 · 2018年2月22日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
12+阅读 · 2020年6月20日
Arxiv
20+阅读 · 2019年11月23日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关VIP内容
对话推荐算法研究综述
专知会员服务
36+阅读 · 2022年4月4日
「深度学习注意力机制 」最新TKDE2022研究综述
专知会员服务
102+阅读 · 2022年3月29日
基于强化学习的推荐研究综述
专知会员服务
83+阅读 · 2021年10月21日
专知会员服务
48+阅读 · 2021年6月26日
专知会员服务
65+阅读 · 2020年9月24日
基于知识图谱的推荐系统研究综述
专知会员服务
327+阅读 · 2020年8月10日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
南洋理工大学,深度学习推荐系统综述
专知会员服务
174+阅读 · 2019年10月14日
相关资讯
推荐系统最新综述 | 涉及强化学习、图神经网络、可解释推荐等
机器学习与推荐算法
3+阅读 · 2022年3月30日
基于多目标优化的推荐系统综述
机器学习与推荐算法
6+阅读 · 2021年12月27日
对话推荐算法研究综述
机器学习与推荐算法
0+阅读 · 2021年11月26日
厦大最新《强化学习推荐系统》综述论文
机器学习与推荐算法
7+阅读 · 2021年9月24日
2019->2020必看的十篇「深度学习领域综述」论文
极市平台
23+阅读 · 2020年1月2日
综述 | 近5年基于深度学习的目标检测算法
计算机视觉life
38+阅读 · 2019年4月18日
深度学习在推荐系统上的应用
架构文摘
13+阅读 · 2018年2月22日
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员