In this study I proposed a filtering beliefs method for improving performance of Partially Observable Markov Decision Processes(POMDPs), which is a method wildly used in autonomous robot and many other domains concerning control policy. My method search and compare every similar belief pair. Because a similar belief have insignificant influence on control policy, the belief is filtered out for reducing training time. The empirical results show that the proposed method outperforms the point-based approximate POMDPs in terms of the quality of training results as well as the efficiency of the method.


翻译:在这项研究中,我提议了一种过滤信仰方法,用于改进部分可观测的Markov决定程序(POMDPs)的性能,这是自主机器人和其他许多控制政策领域疯狂使用的一种方法。我的方法是搜索和比较每一对类似的信仰。由于类似信仰对控制政策的影响不大,因此为了减少培训时间,将这种信仰过滤出去。经验结果表明,从培训结果的质量以及方法的效率来看,拟议的方法比基于点的近似POMDP(POMDPs)的性能要好得多。

0
下载
关闭预览

相关内容

专知会员服务
54+阅读 · 2020年9月7日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
8+阅读 · 2018年6月19日
Arxiv
9+阅读 · 2018年5月22日
VIP会员
相关VIP内容
专知会员服务
54+阅读 · 2020年9月7日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员