Current deep reinforcement learning (DRL) algorithms utilize randomness in simulation environments to assume complete coverage in the state space. However, particularly in high dimensions, relying on randomness may lead to gaps in coverage of the trained DRL neural network model, which in turn may lead to drastic and often fatal real-world situations. To the best of the author's knowledge, the assessment of coverage for DRL is lacking in current research literature. Therefore, in this paper, a novel measure, Approximate Pseudo-Coverage (APC), is proposed for assessing the coverage in DRL applications. We propose to calculate APC by projecting the high dimensional state space on to a lower dimensional manifold and quantifying the occupied space. Furthermore, we utilize an exploration-exploitation strategy for coverage maximization using Rapidly-Exploring Random Tree (RRT). The efficacy of the assessment and the acceleration of coverage is demonstrated on standard tasks such as Cartpole, highway-env.


翻译:目前深入强化学习(DRL)算法利用模拟环境中的随机性来完全覆盖国家空间,但是,特别是在高度方面,依赖随机性可能导致经过训练的DRL神经网络模型覆盖面的缺口,而这反过来又可能导致急剧和往往是致命的现实世界情况。据作者所知,目前研究文献中缺乏对DRL覆盖面的评估。因此,本文件提议采用新颖措施Apbiright Pseudo-Coverage(APC)来评估DRL应用的覆盖范围。我们提议通过预测高维空间在较低维度的方位上并对所占空间进行量化来计算APC。此外,我们利用探索利用快速开发随机树(RRT)进行覆盖最大化的探索利用战略。评估的功效和覆盖范围的加速程度在卡托尔、高速公路-env等标准任务上得到了证明。

0
下载
关闭预览

相关内容

【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
98+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
7+阅读 · 2017年11月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
4+阅读 · 2018年10月5日
Learning to Importance Sample in Primary Sample Space
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
7+阅读 · 2017年11月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
4+阅读 · 2018年10月5日
Learning to Importance Sample in Primary Sample Space
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
6+阅读 · 2018年4月24日
Top
微信扫码咨询专知VIP会员