In this paper, we develop a recommender system for a game that suggests potential items to players based on their interactive behaviors to maximize revenue for the game provider. Our approach is built on a reinforcement learning-based technique and is trained on an offline data set that is publicly available on an IEEE Big Data Cup challenge. The limitation of the offline data set and the curse of high dimensionality pose significant obstacles to solving this problem. Our proposed method focuses on improving the total rewards and performance by tackling these main difficulties. More specifically, we utilized sparse PCA to extract important features of user behaviors. Our Q-learning-based system is then trained from the processed offline data set. To exploit all possible information from the provided data set, we cluster user features to different groups and build an independent Q-table for each group. Furthermore, to tackle the challenge of unknown formula for evaluation metrics, we design a metric to self-evaluate our system's performance based on the potential value the game provider might achieve and a small collection of actual evaluation metrics that we obtain from the live scoring environment. Our experiments show that our proposed metric is consistent with the results published by the challenge organizers. We have implemented the proposed training pipeline, and the results show that our method outperforms current state-of-the-art methods in terms of both total rewards and training speed. By addressing the main challenges and leveraging the state-of-the-art techniques, we have achieved the best public leaderboard result in the challenge. Furthermore, our proposed method achieved an estimated score of approximately 20% better and can be trained faster by 30 times than the best of the current state-of-the-art methods.
翻译:在本文中,我们为游戏开发了一个建议系统,根据球员的互动行为向球员建议潜在的项目,以最大限度地增加游戏提供者的收入。我们的方法建立在强化学习技术的基础上,在离线数据集上培训,该数据集在IEEEE大数据杯挑战中公开提供。离线数据集的局限性和高维度的诅咒对解决这一问题构成重大障碍。我们建议的方法侧重于通过解决这些主要困难来改善总奖赏和业绩。更具体地说,我们利用稀疏的CPA来提取用户行为的重要特征。我们基于学习的系统然后从处理的离线数据集中培训。为了利用从所提供的数据集中可能得到的所有信息,我们将用户特征分组到不同的组,并为每个组建立一个独立的数据库。此外,为了应对评估指标的未知公式的挑战,我们设计了一个基于游戏提供者可能实现的潜在价值的自我评估系统业绩的衡量标准,我们从现场评分环境中获得的实际评价指标的收集量也很少。我们的QE-学习基系统测试系统从处理的离线数据集数据集中培训,我们提出的指标与目前公布的主要方法相比,我们提出的标准都符合当前在编程中得出了30级的进度的进度。我们采用的方法,我们提出的培训方法,我们提出了一种方法,我们采用了更好的方法,提出了一种方法,我们提出的标准,我们采用了一种方法,我们采用了一种更好的方法,我们提出的标准,用现在的计算方法,用最精确的计算方法也显示了了更好的方法,用的方法显示了了更好的方法,用的方法,我们所学的方法是用的方法,我们目前采用了更好的方法,用的方法是用的方法,用的方法,用的方法,我们用最好的方法,我们用最好的方法,用最好的方法,我们用最好的方法,我们用最好的方法,我们用最好的方法,我们用最好的方法,我们用最好的方法,我们用最好的方法,我们用最好的方法,我们用最好的方法,我们用的方法,我们用最好的方法,我们用最好的方法,我们用最好的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法是用的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法,我们用的方法是比较方法,我们用最好的方法,我们用最好的方法,我们用的方法,我们的方式,我们的方法,用的方法,我们