Next item推荐系统是现代在线网络服务的核心组件之一,根植于应用程序中,例如音乐、视频和电子商务网站,帮助用户(user)导航和查找新内容。一般来说,系统被建模为序列预测任务,通常在递归神经网络或其他生成序列模型之上实现。其目的在于回答问题:在知晓用户过去的交互情况下,用户感兴趣的下一个物品(item)是什么。强化学习是训练Agent在给定观察到的环境状态的情况下采取相应行动,以最大化预定义的奖励。现有的基于价值的 RL 算法通常涉及策略评估和策略改进,分别如图1a和图1b所示。因为强化学习自然符合推荐系统的优化目标:最大化一个交互会话的总体收益,RL 中灵活的奖励设置可以灵活地定制推荐目标。因此,在推荐中使用 RL 已成为一个新兴话题。
然而,发展基于强化学习的推荐方法并非易事。具体来说,当前RL 的学习范式通过与环境交互然后观察奖励来训练主体(Agent)。这个过程需要Agent本身进行大量的交互。传统RL的关键是通过大量在线探索试错来训练推荐引擎,但在推荐系统中,我们无法进行大量在线试错,糟糕的推荐结果会影响用户体验。因此,需要通过在不同推荐策略下收集的历史隐性反馈进行推荐引擎的离线训练。然而,历史数据不是由Agent本身产生的,而是来自不同甚至未知的行为策略。策略评估的期望估计很容易受到分布差异的影响,即所谓的离线训练挑战。
针对离线训练的场景,我们提出了一种新的学习范式,基于提示的强化学习(Prompt-Based Reinforcement Learning, PRL)。传统的RL算法试图将“状态-行为”输入对映射到预期的奖励,而PRL直接从“状态-奖励”输入中推断行为,如图1c所示。简而言之,通过简单的监督学习,根据先前的交互和观察到的奖励价值训练Agent来预测推荐的物品。在部署时,历史(训练)数据充当知识库,“状态-奖励”对充当提示。因而Agent将用来解决问题:在给定的先前交互与提示的价值奖励条件下,应该推荐哪种物品?我们在四种推荐模型上实例化PRL,并在两个电子商务数据集上进行实验,实验结果表明了我们方法的有效性。
● 对于基于强化学习的Next item推荐系统的离线训练,我们提出了PRL。我们建议使用“状态-奖励”对作为提示,通过查询历史隐式反馈数据知识库来推断行为。
● 我们提出使用一个有监督的自注意力模块来学习和存储“状态-奖励”对的输入和行为的输出之间的信号。
● 我们在四种推荐模型上实例化PRL,并在两个真实世界的电子商务数据集上进行了实验。实验结果表明,推荐性能有了普遍的提高。