This paper is an initial endeavor to bridge the gap between powerful Deep Reinforcement Learning methodologies and the problem of exploration/coverage of unknown terrains. Within this scope, MarsExplorer, an openai-gym compatible environment tailored to exploration/coverage of unknown areas, is presented. MarsExplorer translates the original robotics problem into a Reinforcement Learning setup that various off-the-shelf algorithms can tackle. Any learned policy can be straightforwardly applied to a robotic platform without an elaborate simulation model of the robot's dynamics to apply a different learning/adaptation phase. One of its core features is the controllable multi-dimensional procedural generation of terrains, which is the key for producing policies with strong generalization capabilities. Four different state-of-the-art RL algorithms (A3C, PPO, Rainbow, and SAC) are trained on the MarsExplorer environment, and a proper evaluation of their results compared to the average human-level performance is reported. In the follow-up experimental analysis, the effect of the multi-dimensional difficulty setting on the learning capabilities of the best-performing algorithm (PPO) is analyzed. A milestone result is the generation of an exploration policy that follows the Hilbert curve without providing this information to the environment or rewarding directly or indirectly Hilbert-curve-like trajectories. The experimental analysis is concluded by comparing PPO learned policy results with frontier-based exploration context for extended terrain sizes. The source code can be found at: https://github.com/dimikout3/GeneralExplorationPolicy.


翻译:本文是缩小强大的深层强化学习方法与未知地形勘探/覆盖问题之间差距的初步努力。 在此范围内, 演示了火星探索者( MarsExplorer), 是一个为未知区域勘探/覆盖而专门设计的开放- gym兼容环境。 MarsExplorer 将原始机器人问题转化为强化学习设置, 各种现成算法可以解决。 任何学习的政策都可以直接应用到机器人平台上, 没有机器人动态的精细模拟模型来应用不同的学习/适应阶段。 它的核心特征之一是可控多维程序地形生成, 这是产生具有强强集成能力的政策的关键。 四个不同的州一级RL算法( A3C、PPO、彩虹和SAC) 都接受了火星探索者环境的培训, 与平均人类水平业绩相比, 任何对其结果的适当评估都可报告。 在后续的实验分析中, 多种层面的地形难度对最佳表现背景算法(PPPPOO) 生成的逻辑生成能力产生了影响, 以不直接分析方式分析 。 将模型定位政策生成结果, 将分析 以 向核心勘探结果 。 。 。 分析 将 分析 将 将 分析 分析 以 分析 分析 分析 将 分析 将 分析 将 将 将 将 方向 分析 分析 方向 分析 以 以 以 将 将 方向 分析 分析 分析 分析 分析 将 分析 分析 分析 分析 将 将 分析 将 将 分析 分析 分析 分析 分析 将 将 分析 分析 将 分析 分析 将 将 分析 将 将 分析 将 分析 将 将 将 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 将 分析 分析 分析 将 将 分析 分析 分析 分析 分析 将 以 分析 分析 分析 分析 分析 分析 分析 以 将 分析 分析 以 以 以 将 将 将 将 分析 将 将 将 分析

0
下载
关闭预览

相关内容

可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
深度强化学习策略梯度教程,53页ppt
专知会员服务
179+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年9月19日
Arxiv
0+阅读 · 2021年9月16日
Arxiv
7+阅读 · 2018年12月26日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
5+阅读 · 2018年6月12日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员