摘要

推荐系统已经被广泛应用于不同的现实生活场景,帮助我们找到有用的信息。近年来,基于强化学习(RL)的推荐系统已经成为一个新兴的研究课题。由于其交互性和自主学习能力,它常常超过传统的推荐模型,甚至是最基于深度学习的方法。然而,在推荐系统中应用RL还面临着各种挑战。为此,我们首先对五种典型推荐场景的RL方法进行了全面的概述、比较和总结,以下是三个主要的RL类别: 价值函数、策略搜索和演员-评论员(Actor-Critic)。然后,在现有文献的基础上,系统分析了面临的挑战和相应的解决方案。最后,通过对RL研究中存在的问题和局限性的讨论,指出了该领域潜在的研究方向。

https://arxiv.org/abs/2109.10665

引言

个性化推荐系统能够提供符合用户喜好的有趣信息,从而有助于缓解信息过载问题。在过去的二十年中,人们对推荐系统进行了广泛的研究,开发了许多推荐方法。这些方法通常根据用户的喜好、商品特征和用户与商品的交互来进行个性化的推荐。一些推荐方法还利用其他附加信息,如用户之间的社会关系(例如,社会推荐)、时间数据(例如,顺序推荐)和位置感知信息(例如,POI(“兴趣点”的缩写)推荐。

推荐技术通常利用各种信息为用户提供潜在的项目。在现实场景中,推荐系统根据用户与商品的交互历史进行商品推荐,然后接收用户反馈进行进一步推荐。也就是说,推荐系统的目的是通过交互获取用户的偏好,并推荐用户可能感兴趣的项目。为此,早期的推荐研究主要集中在开发基于内容和基于协同过滤的方法[2],[3]。矩阵分解是传统推荐方法中最具代表性的方法之一。近年来,由于深度学习的快速发展,各种神经推荐方法被开发出来[4]。然而,现有的推荐方法往往忽略了用户与推荐模型之间的交互。它们不能有效地捕捉到用户的及时反馈来更新推荐模型,往往导致推荐结果不理想。

一般来说,推荐任务可以建模为这样一个交互过程——用户被推荐一个商品,然后为推荐模型提供反馈(例如,跳过、点击或购买)。在下一次交互中,推荐模型从用户的显式/隐式反馈中学习,并向用户推荐一个新项目。从用户的角度来看,高效的交互意味着帮助用户尽快找到准确的商品。从模型的角度看,有必要在推荐的多轮中平衡新颖性、相关性和多样性。交互式推荐方法已成功应用于现实世界的推荐任务中。然而,该方法经常遇到一些问题,如冷启动[5]和数据稀疏[6],以及挑战,如可解释性[7]和安全性[8]。

作为一个机器学习领域,强化学习(RL)专注于智能代理如何与环境交互,提供了潜在的解决方案来模拟用户和代理之间的交互。最近RL的成功推动了人工智能[9],[10]的研究。特别是,深度强化学习(DRL)[11]具有强大的表示学习和函数逼近特性,可以解决人工智能的挑战。它已被应用于各个领域,如游戏[12],机器人[13],网络[14]。近年来,应用RL解决推荐问题已成为推荐研究的一个新趋势。具体来说,RL使推荐代理能够不断地与环境(例如,用户和/或记录的数据)交互,以学习最佳推荐策略。在实践中,基于RL的推荐系统已经被应用到许多特定的场景中,如电子商务[18]、电子学习[19]、电影推荐[20]、音乐推荐[21]、新闻推荐[22]、工作技能推荐[23]、医疗保健[24]、能量优化[25]等。

为促进基于RL的推荐系统的研究,本文总结了现有的推荐问题的相关解决方案,系统分析了在推荐方法中应用RL所面临的挑战,并探讨了未来潜在的研究方向。本文从理论研究的角度,回顾了已有的研究工作,包括环境构建、先验知识、奖励函数定义、学习偏差和任务构建。环境建设可以缓解勘探开发的取舍。先验知识和奖励定义是进行推荐决策的关键。此外,任务结构化可以很好地解决维度的诅咒。从应用的角度,我们还提供了基于RL的推荐系统的全面调研,分别遵循价值函数、策略搜索和演员评论。值得注意[26]的是还提供了对基于RL和drl的推荐算法的回顾,并在推荐列表、架构、可解释性和评估方面提出了几个研究方向。[27]主要从基于模型的方法和无模型的算法两方面对基于drl的推荐系统进行了概述,并重点介绍了基于drl的推荐中一些有待解决的问题和新兴的课题。与[26]和[27]不同的是,我们根据其他分类算法(即价值函数、策略搜索和角色-评论)概述了现有的(D)RL推荐方法,并分析了在推荐系统中应用(D)RL的挑战。

本工作的主要贡献如下:

  • 我们全面回顾了为五种典型推荐方案开发的RL方法。对于每个推荐场景,我们提供了有代表性的模型的详细描述,总结了文献中使用的具体RL算法,并进行了必要的比较。

  • 我们系统地分析了在推荐系统中应用RL所面临的挑战,包括环境构建、先验知识、奖励函数定义、学习偏差和任务构建。

  • 我们还讨论了RL的开放问题,分析了该领域的实际挑战,并提出了未来可能的研究和应用方向。

本文的其余部分结构如下。第2节介绍了RL的背景,定义了相关的概念,列出了常用的方法。第三节给出了基于rl的推荐方法的标准定义。第4节全面回顾了为推荐系统开发的RL算法。第五部分讨论了在推荐系统中应用RL所面临的挑战和相应的解决方案。接下来,第6节讨论了基于rl的推荐系统的各种限制和潜在的研究方向。最后,第7节总结了本研究。

成为VIP会员查看完整内容
78

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
协同过滤推荐系统综述
专知会员服务
45+阅读 · 2021年11月4日
基于强化学习的推荐研究综述
专知会员服务
83+阅读 · 2021年10月21日
专知会员服务
42+阅读 · 2021年10月20日
【清华大学】图神经网络推荐系统综述论文
专知会员服务
77+阅读 · 2021年10月6日
专知会员服务
55+阅读 · 2021年8月12日
专知会员服务
87+阅读 · 2020年1月20日
【综述】基于知识图谱的推荐系统综述
AINLP
14+阅读 · 2020年7月7日
最新图学习推荐系统综述 | Graph Learning Approaches to Recommender Systems
机器学习与推荐算法
5+阅读 · 2020年4月29日
【基于元学习的推荐系统】5篇相关论文
专知
10+阅读 · 2020年1月20日
推荐系统概述
Python开发者
11+阅读 · 2018年9月27日
A Survey on Automated Fact-Checking
Arxiv
8+阅读 · 2021年8月26日
Arxiv
4+阅读 · 2018年12月3日
VIP会员
相关VIP内容
协同过滤推荐系统综述
专知会员服务
45+阅读 · 2021年11月4日
基于强化学习的推荐研究综述
专知会员服务
83+阅读 · 2021年10月21日
专知会员服务
42+阅读 · 2021年10月20日
【清华大学】图神经网络推荐系统综述论文
专知会员服务
77+阅读 · 2021年10月6日
专知会员服务
55+阅读 · 2021年8月12日
专知会员服务
87+阅读 · 2020年1月20日
微信扫码咨询专知VIP会员