In recent years, there are great interests as well as challenges in applying reinforcement learning (RL) to recommendation systems (RS). In this paper, we summarize three key practical challenges of large-scale RL-based recommender systems: massive state and action spaces, high-variance environment, and the unspecific reward setting in recommendation. All these problems remain largely unexplored in the existing literature and make the application of RL challenging. We develop a model-based reinforcement learning framework with a disentangled universal value function, called GoalRec. Combining the ideas of world model (model-based), value function estimation (model-free), and goal-based RL, a novel model-based value function formalization is proposed. It can generalize to various goals that the recommender may have, and disentangle the stochastic environmental dynamics and high-variance reward signals accordingly. As a part of the value function, free from the sparse and high-variance reward signals, a high-capacity reward-irrelevant world model is trained to simulate complex environmental dynamics under a certain goal. Based on the predicted environmental dynamics, the disentangled universal value function is related to the user's future trajectory instead of a monolithic state and a scalar reward. We demonstrate the superiority of GoalRec over previous approaches in terms of the above three practical challenges in a series of simulations and a real application.


翻译:近年来,在将强化学习(RL)应用到建议系统(RS)方面,既有巨大的兴趣,也有巨大的挑战。 在本文件中,我们总结了大规模基于RL的推荐人系统的三个关键实际挑战:巨大的州和行动空间、高差异环境和建议中不具体的奖赏设置。所有这些问题在现有文献中基本上尚未探讨,使RL的运用具有挑战性。我们开发了一个基于模型的强化学习框架,其普惠性功能被称为目标Rec。将世界模型(基于模型的)、价值函数估计(无模型的)和基于目标的RL的理念结合起来,提出了基于新颖模型的价值观正规化。它可以概括到建议人可能拥有的各种目标,并相应地消除环境变化不定的动态和高度差异性奖赏信号。作为价值功能的一部分,不受稀疏和高度差异性的奖赏信号,一个高能力相关世界模型在某个目标下模拟复杂的环境动态。基于预测的环境动态、无模型估算值估算值(无模式)和基于目标的RLL,提出了一个新的基于模型的价值观模式的正规化功能。它可以概括地概括地概括地适用于建议人的各种目标上,在以往三个目标中,一个比目标的永久的轨道上,一个比目标的永久的轨道上,一个真实的永久的标志性标准,而与之前的标志性,一个比现实性轨道上,一个真实性标准,一个比以往的标志性目标性目标性规则性规则性规则性规则性功能与前三。

0
下载
关闭预览

相关内容

《行为与认知机器人学》,241页pdf
专知会员服务
52+阅读 · 2021年4月11日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
KDD2020推荐系统论文聚焦
机器学习与推荐算法
15+阅读 · 2020年6月28日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Arxiv
9+阅读 · 2018年3月23日
VIP会员
相关资讯
KDD2020推荐系统论文聚焦
机器学习与推荐算法
15+阅读 · 2020年6月28日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员