Reinforcement learning (RL) is currently a popular research topic in control engineering and has the potential to make its way to industrial and commercial applications. Corresponding RL controllers are trained in direct interaction with the controlled system, rendering them data-driven and performance-oriented solutions. The best practice of exploring starts (ES) is used by default to support the learning process via randomly picked initial states. However, this method might deliver strongly biased results if the system's dynamic and constraints lead to unfavorable sample distributions in the state space (e.g., condensed sample accumulation in certain state-space areas). To overcome this issue, a kernel density estimation-based state-space coverage acceleration (DESSCA) is proposed, which improves the ES concept by prioritizing infrequently visited states for a more balanced coverage of the state space during training. Compared to neighbouring methods in the field of count-based exploration, DESSCA can also be applied to continuous state spaces without the need for artificial discretization of the states. Moreover, the algorithm allows to define arbitrary reference state distributions such that the state coverage can be shaped w.r.t. the application needs. Considered test scenarios are mountain car, cartpole and electric motor control environments. Using DQN and DDPG as exemplary RL algorithms, it can be shown that DESSCA is a simple yet effective algorithmic extension to the established ES approach that enables an increase in learning stability as well as the final control performance.


翻译:强化学习(RL)目前是一个在控制工程中流行的研究课题,有可能发展到工业和商业应用。相应的RL控制员在与受控系统直接互动时接受培训,以获得数据驱动和绩效为导向的解决方案。探索启动(ES)的最佳做法默认地用于通过随机挑选初始状态来支持学习过程。然而,如果系统的动态和制约因素导致州空间内不受欢迎的抽样分布(例如,在某些州空间地区压缩样本积累),这种方法可能会产生严重偏差的结果。为了克服这一问题,建议采用基于内核密度估计的国家空间覆盖加速(DESCA),通过在培训期间优先考虑不经常访问的州对州空间进行更平衡的覆盖来改进ES概念。与基于统计的探索领域相邻的方法相比,DESCA也可以适用于州连续的空间,而不需要人为的离散做法。此外,算法允许确定任意的参考状态分布,以便国家覆盖能够形成州内电磁密度估计值估计值(DESCA)最终的运行率加速度加速(DESCA), 考虑将电动演算法的演算情景显示,因为州级演算法的演算环境可以使州级演算系统能够使州级演算系统更稳定应用为DL。

0
下载
关闭预览

相关内容

【干货书】真实机器学习,264页pdf,Real-World Machine Learning
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年12月14日
Arxiv
0+阅读 · 2021年12月14日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关VIP内容
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员