强化学习如何用于推荐？厦大最新《强化学习推荐系统》综述论文，25页pdf156篇文献论述五种典型RL推荐方法

摘要

推荐系统已经被广泛应用于不同的现实生活场景，帮助我们找到有用的信息。近年来，基于强化学习(RL)的推荐系统已经成为一个新兴的研究课题。由于其交互性和自主学习能力，它常常超过传统的推荐模型，甚至是最基于深度学习的方法。然而，在推荐系统中应用RL还面临着各种挑战。为此，我们首先对五种典型推荐场景的RL方法进行了全面的概述、比较和总结，以下是三个主要的RL类别: 价值函数、策略搜索和演员-评论员(Actor-Critic)。然后，在现有文献的基础上，系统分析了面临的挑战和相应的解决方案。最后，通过对RL研究中存在的问题和局限性的讨论，指出了该领域潜在的研究方向。

https://arxiv.org/abs/2109.10665

引言

个性化推荐系统能够提供符合用户喜好的有趣信息，从而有助于缓解信息过载问题。在过去的二十年中，人们对推荐系统进行了广泛的研究，开发了许多推荐方法。这些方法通常根据用户的喜好、商品特征和用户与商品的交互来进行个性化的推荐。一些推荐方法还利用其他附加信息，如用户之间的社会关系(例如，社会推荐)、时间数据(例如，顺序推荐)和位置感知信息(例如，POI(“兴趣点”的缩写)推荐。

推荐技术通常利用各种信息为用户提供潜在的项目。在现实场景中，推荐系统根据用户与商品的交互历史进行商品推荐，然后接收用户反馈进行进一步推荐。也就是说，推荐系统的目的是通过交互获取用户的偏好，并推荐用户可能感兴趣的项目。为此，早期的推荐研究主要集中在开发基于内容和基于协同过滤的方法[2]，[3]。矩阵分解是传统推荐方法中最具代表性的方法之一。近年来，由于深度学习的快速发展，各种神经推荐方法被开发出来[4]。然而，现有的推荐方法往往忽略了用户与推荐模型之间的交互。它们不能有效地捕捉到用户的及时反馈来更新推荐模型，往往导致推荐结果不理想。

一般来说，推荐任务可以建模为这样一个交互过程——用户被推荐一个商品，然后为推荐模型提供反馈(例如，跳过、点击或购买)。在下一次交互中，推荐模型从用户的显式/隐式反馈中学习，并向用户推荐一个新项目。从用户的角度来看，高效的交互意味着帮助用户尽快找到准确的商品。从模型的角度看，有必要在推荐的多轮中平衡新颖性、相关性和多样性。交互式推荐方法已成功应用于现实世界的推荐任务中。然而，该方法经常遇到一些问题，如冷启动[5]和数据稀疏[6]，以及挑战，如可解释性[7]和安全性[8]。

作为一个机器学习领域，强化学习(RL)专注于智能代理如何与环境交互，提供了潜在的解决方案来模拟用户和代理之间的交互。最近RL的成功推动了人工智能[9]，[10]的研究。特别是，深度强化学习(DRL)[11]具有强大的表示学习和函数逼近特性，可以解决人工智能的挑战。它已被应用于各个领域，如游戏[12]，机器人[13]，网络[14]。近年来，应用RL解决推荐问题已成为推荐研究的一个新趋势。具体来说，RL使推荐代理能够不断地与环境(例如，用户和/或记录的数据)交互，以学习最佳推荐策略。在实践中，基于RL的推荐系统已经被应用到许多特定的场景中，如电子商务[18]、电子学习[19]、电影推荐[20]、音乐推荐[21]、新闻推荐[22]、工作技能推荐[23]、医疗保健[24]、能量优化[25]等。

为促进基于RL的推荐系统的研究，本文总结了现有的推荐问题的相关解决方案，系统分析了在推荐方法中应用RL所面临的挑战，并探讨了未来潜在的研究方向。本文从理论研究的角度，回顾了已有的研究工作，包括环境构建、先验知识、奖励函数定义、学习偏差和任务构建。环境建设可以缓解勘探开发的取舍。先验知识和奖励定义是进行推荐决策的关键。此外，任务结构化可以很好地解决维度的诅咒。从应用的角度，我们还提供了基于RL的推荐系统的全面调研，分别遵循价值函数、策略搜索和演员评论。值得注意[26]的是还提供了对基于RL和drl的推荐算法的回顾，并在推荐列表、架构、可解释性和评估方面提出了几个研究方向。[27]主要从基于模型的方法和无模型的算法两方面对基于drl的推荐系统进行了概述，并重点介绍了基于drl的推荐中一些有待解决的问题和新兴的课题。与[26]和[27]不同的是，我们根据其他分类算法(即价值函数、策略搜索和角色-评论)概述了现有的(D)RL推荐方法，并分析了在推荐系统中应用(D)RL的挑战。

本工作的主要贡献如下:

我们全面回顾了为五种典型推荐方案开发的RL方法。对于每个推荐场景，我们提供了有代表性的模型的详细描述，总结了文献中使用的具体RL算法，并进行了必要的比较。
我们系统地分析了在推荐系统中应用RL所面临的挑战，包括环境构建、先验知识、奖励函数定义、学习偏差和任务构建。
我们还讨论了RL的开放问题，分析了该领域的实际挑战，并提出了未来可能的研究和应用方向。

本文的其余部分结构如下。第2节介绍了RL的背景，定义了相关的概念，列出了常用的方法。第三节给出了基于rl的推荐方法的标准定义。第4节全面回顾了为推荐系统开发的RL算法。第五部分讨论了在推荐系统中应用RL所面临的挑战和相应的解决方案。接下来，第6节讨论了基于rl的推荐系统的各种限制和潜在的研究方向。最后，第7节总结了本研究。

成为VIP会员查看完整内容