基于强化学习的推荐系统(RL-basedressmender system,RS)旨在通过将序贯推荐应用到多步决策任务中,从而从一批收集的数据中获得好的策略。然而,当前基于RL的RS benchmark通常存在较大的现实差距,因为它们大多只包括人工RL数据集或半模拟RS数据集,并且训练的策略只在模拟环境中评估。在现实世界中,并非所有推荐问题都适合转化为强化学习问题。与以往的学术RL研究不同,基于RL的RS存在外推误差,并且在部署前很难得到充分验证。在本文中,我们介绍了RL4RS(Recommender Systems的强化学习)基准测试——一种完全从工业应用系统中收集的新资源,用于训练和评估RL算法。它包含了两个真实数据集、优化的模拟环境、相关的高级RL基线、数据理解工具和反事实的策略评估算法。除了基于RL的推荐系统之外,我们希望这些资源能为强化学习和神经组合优化的研究做出贡献。
github项目:https://github.com/fuxiAIlab/RL4RS
数据集下载: https://drive.google.com/file/d/1YbPtPyYrMvMGOuqD4oHvK0epDtEhEb9v/view?usp=sharing
文章pdf: https://arxiv.org/pdf/2110.11073.pdf
Kaggle竞赛地址: https://www.kaggle.com/c/bigdata2021-rl-recsys/overview
相关资源: https://fuxi-up-research.gitbook.io/fuxi-up-challenges/
和现有的开源的基于强化学习的推荐系统Benchmark对比:
实现的方法列表如下:
algorithm | discrete control | continuous control | offline RL? |
---|---|---|---|
Behavior Cloning (supervised learning) | ✅ | ✅ | |
Deep Q-Network (DQN) | ✅ | ⛔ | |
Double DQN | ✅ | ⛔ | |
Rainbow | ✅ | ⛔ | |
PPO | ✅ | ✅ | |
A2C A3C | ✅ | ✅ | |
IMPALA | ✅ | ✅ | |
Deep Deterministic Policy Gradients (DDPG) | ⛔ | ✅ | |
Twin Delayed Deep Deterministic Policy Gradients (TD3) | ⛔ | ✅ | |
Soft Actor-Critic (SAC) | ✅ | ✅ | |
Batch Constrained Q-learning (BCQ) | ✅ | ✅ | ✅ |
Bootstrapping Error Accumulation Reduction (BEAR) | ⛔ | ✅ | ✅ |
Advantage-Weighted Regression (AWR) | ✅ | ✅ | ✅ |
Conservative Q-Learning (CQL) | ✅ | ✅ | ✅ |
Advantage Weighted Actor-Critic (AWAC) | ⛔ | ✅ | ✅ |
Critic Reguralized Regression (CRR) | ⛔ | ✅ | ✅ |
Policy in Latent Action Space (PLAS) | ⛔ | ✅ | ✅ |
TD3+BC | ⛔ | ✅ | ✅ |