Accounting for the fact that users have different sequential patterns, the main drawback of state-of-the-art recommendation strategies is that a fixed sequence length of user-item interactions is required as input to train the models. This might limit the recommendation accuracy, as in practice users follow different trends on the sequential recommendations. Hence, baseline strategies might ignore important sequential interactions or add noise to the models with redundant interactions, depending on the variety of users' sequential behaviours. To overcome this problem, in this study we propose the SAR model, which not only learns the sequential patterns but also adjusts the sequence length of user-item interactions in a personalized manner. We first design an actor-critic framework, where the RL agent tries to compute the optimal sequence length as an action, given the user's state representation at a certain time step. In addition, we optimize a joint loss function to align the accuracy of the sequential recommendations with the expected cumulative rewards of the critic network, while at the same time we adapt the sequence length with the actor network in a personalized manner. Our experimental evaluation on four real-world datasets demonstrates the superiority of our proposed model over several baseline approaches. Finally, we make our implementation publicly available at https://github.com/stefanosantaris/sar.


翻译:考虑到用户有不同的顺序模式,最新建议战略的主要缺点是,需要将用户-项目互动的固定顺序长度作为培训模型的投入。这可能会限制建议准确性,因为在实践中,用户遵循的是顺序建议的不同趋势。因此,基线战略可能忽视重要的顺序互动,或根据用户的顺序行为的不同,在模式中增加噪音,产生重复互动。为了克服这一问题,我们在本研究中提议SAR模式,该模式不仅学习顺序模式,而且以个性化的方式调整用户-项目互动的顺序长度。我们首先设计一个行为者-critic框架,其中RL代理商试图将最佳序列长度作为行动进行计算,因为用户在一定的时间内的状态代表情况。此外,我们优化联合损失功能,使顺序建议的准确性与批评网络的预期累积回报相一致,同时我们以个性化的方式调整与行为者网络的顺序长度。我们对四个实体-项目数据设置的实验性评估显示我们提议的模型优于若干基线方法。最后,我们将公开进行我们提议的模型的落实。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
专知会员服务
91+阅读 · 2021年8月28日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
128+阅读 · 2020年5月14日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
最新图学习推荐系统综述 | Graph Learning Approaches to Recommender Systems
机器学习与推荐算法
5+阅读 · 2020年4月29日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Cold-start Sequential Recommendation via Meta Learner
Arxiv
14+阅读 · 2020年12月10日
Arxiv
3+阅读 · 2018年12月21日
Learning Recommender Systems from Multi-Behavior Data
Arxiv
7+阅读 · 2018年11月29日
Arxiv
6+阅读 · 2018年3月28日
VIP会员
相关资讯
最新图学习推荐系统综述 | Graph Learning Approaches to Recommender Systems
机器学习与推荐算法
5+阅读 · 2020年4月29日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员