We study planning problems for dynamical systems with uncertainty caused by measurement and process noise. Measurement noise causes limited observability of system states, and process noise causes uncertainty in the outcome of a given control. The problem is to find a controller that guarantees that the system reaches a desired goal state in finite time while avoiding obstacles, with at least some required probability. Due to the noise, this problem does not admit exact algorithmic or closed-form solutions in general. Our key contribution is a novel planning scheme that employs Kalman filtering as a state estimator to obtain a finite-state abstraction of the dynamical system, which we formalize as a Markov decision process (MDP). By extending this MDP with intervals of probabilities, we enhance the robustness of the model against numerical imprecision in approximating the transition probabilities. For this so-called interval MDP (iMDP), we employ state-of-the-art verification techniques to efficiently compute plans that maximize the probability of reaching goal states. We show the correctness of the abstraction and provide several optimizations that aim to balance the quality of the plan and the scalability of the approach. We demonstrate that our method is able to handle systems with a 6-dimensional state that result in iMDPs with tens of thousands of states and millions of transitions.


翻译:测量噪音导致系统状态的可观察性有限,而过程噪音则造成特定控制结果的不确定性。问题在于找到一个控制器,确保系统在有限的时间内达到理想的目标状态,同时避免障碍,至少需要一定的概率。由于噪音,这一问题并不普遍接受精确的算法或封闭式解决办法。我们的关键贡献是一个新的规划方案,它利用卡尔曼过滤器作为国家估计器来获取动态系统的有限状态抽象化,我们将其正式定为马尔科夫决策程序(MDP)。通过将这一MDP扩展为概率间隔,我们加强了模型的稳健性,防止在接近过渡概率时出现数字不准确性。对于这种所谓的间隙MDP(iMDP),我们使用最先进的核查技术来有效地配置能够最大限度地达到目标状态的计划。我们展示了抽象的正确性,并提供了若干优化,目的是在计划质量与概率间断的概率间隙中,我们用上百万个系统的方法来平衡了我们计划的质量,并且能够以上百万的高度的方法来显示我们处理的系统。

0
下载
关闭预览

相关内容

Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
专知会员服务
162+阅读 · 2020年1月16日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
277+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
carla无人驾驶模拟中文项目 carla_simulator_Chinese
CreateAMind
3+阅读 · 2018年1月30日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2022年1月26日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
carla无人驾驶模拟中文项目 carla_simulator_Chinese
CreateAMind
3+阅读 · 2018年1月30日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员