Partially Observable Monte-Carlo Planning (POMCP) is a powerful online algorithm able to generate approximate policies for large Partially Observable Markov Decision Processes. The online nature of this method supports scalability by avoiding complete policy representation. The lack of an explicit representation however hinders policy interpretability and makes policy verification very complex. In this work, we propose two contributions. The first is a method for identifying unexpected actions selected by POMCP with respect to expert prior knowledge of the task. The second is a shielding approach that prevents POMCP from selecting unexpected actions. The first method is based on Satisfiability Modulo Theory (SMT). It inspects traces (i.e., sequences of belief-action-observation triplets) generated by POMCP to compute the parameters of logical formulas about policy properties defined by the expert. The second contribution is a module that uses online the logical formulas to identify anomalous actions selected by POMCP and substitutes those actions with actions that satisfy the logical formulas fulfilling expert knowledge. We evaluate our approach on Tiger, a standard benchmark for POMDPs, and a real-world problem related to velocity regulation in mobile robot navigation. Results show that the shielded POMCP outperforms the standard POMCP in a case study in which a wrong parameter of POMCP makes it select wrong actions from time to time. Moreover, we show that the approach keeps good performance also if the parameters of the logical formula are optimized using trajectories containing some wrong actions.


翻译:部分可观测 Monte-Carlo规划(POMCP)是一个强大的在线算法,它能够为大型部分可观测的Markov 决策进程产生大致的政策。该方法的在线性质通过避免完整的政策代表来支持可扩展性。缺乏明确的表达方式妨碍了政策的可解释性,使得政策核查非常复杂。在这项工作中,我们提出两项意见。第一个意见是确定POMCP所选择的与专家以前对任务了解有关的意外行动的方法。第二个建议是防止POMCP所选择的异常行动的一种保护性方法。第一个方法基于可满足性 Modulo Theory (SMT) 。它检查跟踪(即信仰-行动-观察三重线序列),以避免完整的政策代表完整的政策代表的可解释性,使政策核查十分复杂。第二个建议是使用在线逻辑公式确定POMCP所选择的反常性行动,用符合逻辑公式的行动取代那些符合专家知识的行动。我们评估了我们关于老虎的方法,这是对POMPTheo The droad 的标准化基准,它也显示一个真实的移动动作,它显示一个真实的标准动作,它的一个标准动作在OMOPROPROPPPDLA中显示一个与SLA中显示一个实际的标准动作,一个与Slalalalalalalal Acalalalal ormax

1
下载
关闭预览

相关内容

《行为与认知机器人学》,241页pdf
专知会员服务
53+阅读 · 2021年4月11日
专知会员服务
52+阅读 · 2020年9月7日
【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
计算机 | ICDE 2020等国际会议信息8条
Call4Papers
3+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
计算机 | 中低难度国际会议信息6条
Call4Papers
7+阅读 · 2019年5月16日
已删除
将门创投
10+阅读 · 2019年3月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
4+阅读 · 2021年4月13日
VIP会员
相关资讯
计算机 | ICDE 2020等国际会议信息8条
Call4Papers
3+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
计算机 | 中低难度国际会议信息6条
Call4Papers
7+阅读 · 2019年5月16日
已删除
将门创投
10+阅读 · 2019年3月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员