We present a new approach ARLPCG: Adversarial Reinforcement Learning for Procedural Content Generation, which procedurally generates and tests previously unseen environments with an auxiliary input as a control variable. Training RL agents over novel environments is a notoriously difficult task. One popular approach is to procedurally generate different environments to increase the generalizability of the trained agents. ARLPCG instead deploys an adversarial model with one PCG RL agent (called Generator) and one solving RL agent (called Solver). The Generator receives a reward signal based on the Solver's performance, which encourages the environment design to be challenging but not impossible. To further drive diversity and control of the environment generation, we propose using auxiliary inputs for the Generator. The benefit is two-fold: Firstly, the Solver achieves better generalization through the Generator's generated challenges. Secondly, the trained Generator can be used as a creator of novel environments that, together with the Solver, can be shown to be solvable. We create two types of 3D environments to validate our model, representing two popular game genres: a third-person platformer and a racing game. In these cases, we shows that ARLPCG has a significantly better solve ratio, and that the auxiliary inputs renders the levels creation controllable to a certain degree. For a video compilation of the results please visit https://youtu.be/z7q2PtVsT0I.


翻译:我们提出了一个新方法ARLPCG:程序内容生成的反向强化学习:程序内容生成的反向强化学习,该方法在程序上生成并测试先前的不为人知的环境,作为控制变量的辅助投入。在新环境中培训RL代理是一个臭名昭著的困难任务。一种流行的做法是在程序上创造不同的环境,以提高受过训练的代理的通用性。ARLPCG代而采用一个具有PCG RL代理(称为发电机)和一个解决RL代理(称为Solver)的对抗模式。发电机收到一个基于溶剂性能的奖赏信号,它鼓励环境设计具有挑战性但并非不可能。为了进一步推动环境生成的多样化和控制,我们建议使用辅助性投入来生成发电机。其好处是双重的:首先,溶剂通过发电机产生的挑战实现更好的概括性化。第二,经过训练的发电机可以用来创造新环境,与溶剂一起展示可溶解剂。我们创建了两种类型的3D环境来验证我们的模型,代表两种流行的游戏类型:第三个人造平台和快速的游戏。我们展示了某种程度的ARPC的游戏。

0
下载
关闭预览

相关内容

专知会员服务
78+阅读 · 2020年12月22日
Gartner:2020年十大战略性技术趋势, 47页pdf
专知会员服务
77+阅读 · 2020年3月10日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年8月4日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Arxiv
5+阅读 · 2020年6月16日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
8+阅读 · 2018年5月21日
Arxiv
9+阅读 · 2018年1月4日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年8月4日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Arxiv
5+阅读 · 2020年6月16日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
8+阅读 · 2018年5月21日
Arxiv
9+阅读 · 2018年1月4日
Top
微信扫码咨询专知VIP会员