In this paper, we develop a recommender system for a game that suggests potential items to players based on their interactive behaviors to maximize revenue for the game provider. Our approach is built on a reinforcement learning-based technique and is trained on an offline data set that is publicly available on an IEEE Big Data Cup challenge. The limitation of the offline data set and the curse of high dimensionality pose significant obstacles to solving this problem. Our proposed method focuses on improving the total rewards and performance by tackling these main difficulties. More specifically, we utilized sparse PCA to extract important features of user behaviors. Our Q-learning-based system is then trained from the processed offline data set. To exploit all possible information from the provided data set, we cluster user features to different groups and build an independent Q-table for each group. Furthermore, to tackle the challenge of unknown formula for evaluation metrics, we design a metric to self-evaluate our system's performance based on the potential value the game provider might achieve and a small collection of actual evaluation metrics that we obtain from the live scoring environment. Our experiments show that our proposed metric is consistent with the results published by the challenge organizers. We have implemented the proposed training pipeline, and the results show that our method outperforms current state-of-the-art methods in terms of both total rewards and training speed. By addressing the main challenges and leveraging the state-of-the-art techniques, we have achieved the best public leaderboard result in the challenge. Furthermore, our proposed method achieved an estimated score of approximately 20% better and can be trained faster by 30 times than the best of the current state-of-the-art methods.


翻译:在本文中,我们为游戏开发了一个建议系统,根据球员的互动行为向球员建议潜在的项目,以最大限度地增加游戏提供者的收入。我们的方法建立在强化学习技术的基础上,在离线数据集上培训,该数据集在IEEEE大数据杯挑战中公开提供。离线数据集的局限性和高维度的诅咒对解决这一问题构成重大障碍。我们建议的方法侧重于通过解决这些主要困难来改善总奖赏和业绩。更具体地说,我们利用稀疏的CPA来提取用户行为的重要特征。我们基于学习的系统然后从处理的离线数据集中培训。为了利用从所提供的数据集中可能得到的所有信息,我们将用户特征分组到不同的组,并为每个组建立一个独立的数据库。此外,为了应对评估指标的未知公式的挑战,我们设计了一个基于游戏提供者可能实现的潜在价值的自我评估系统业绩的衡量标准,我们从现场评分环境中获得的实际评价指标的收集量也很少。我们的QE-学习基系统测试系统从处理的离线数据集数据集中培训,我们提出的指标与目前公布的主要方法相比,我们提出的标准都符合当前在编程中得出了30级的进度的进度。我们采用的方法,我们提出的培训方法,我们提出了一种方法,我们采用了更好的方法,提出了一种方法,我们提出的标准,我们采用了一种方法,我们采用了一种更好的方法,我们提出的标准,用现在的计算方法,用最精确的计算方法也显示了了更好的方法,用的方法显示了了更好的方法,用的方法,我们所学的方法是用的方法,我们目前采用了更好的方法,用的方法是用的方法,用的方法,用的方法,我们用最好的方法,我们用最好的方法,用最好的方法,我们用最好的方法,我们用最好的方法,我们用最好的方法,我们用最好的方法,我们用最好的方法,我们用最好的方法,我们用最好的方法,我们用最好的方法,我们用的方法,我们用最好的方法,我们用最好的方法,我们用最好的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法是用的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法是比较方法,我们用最好的方法,我们用最好的方法,我们用的方法,我们的方式,我们的方法,用的方法,我们

0
下载
关闭预览

相关内容

可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
130+阅读 · 2020年5月14日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
LibRec 精选:推荐系统9个必备数据集
LibRec智能推荐
6+阅读 · 2018年3月7日
Arxiv
3+阅读 · 2018年10月5日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
LibRec 精选:推荐系统9个必备数据集
LibRec智能推荐
6+阅读 · 2018年3月7日
Top
微信扫码咨询专知VIP会员