We study the problem of controlling a partially observed Markov decision process (POMDP) to either aid or hinder the estimation of its state trajectory by optimising the conditional entropy of the state trajectory given measurements and controls, a quantity we dub the smoother entropy. Our consideration of the smoother entropy contrasts with previous active state estimation and obfuscation approaches that instead resort to measures of marginal (or instantaneous) state uncertainty due to tractability concerns. By establishing novel expressions of the smoother entropy in terms of the usual POMDP belief state, we show that our active estimation and obfuscation problems can be reformulated as Markov decision processes (MDPs) that are fully observed in the belief state. Surprisingly, we identify belief-state MDP reformulations of both active estimation and obfuscation with concave cost and cost-to-go functions, which enables the use of standard POMDP techniques to construct tractable bounded-error (approximate) solutions. We show in simulations that optimisation of the smoother entropy leads to superior trajectory estimation and obfuscation compared to alternative approaches.


翻译:我们研究了控制部分观察到的Markov决定过程(POMDP)的问题,以便通过优化测量和控制,优化国家轨迹的有条件环流,从而帮助或阻碍对其国家轨迹的估计,我们研究了控制部分观测到的Markov决定过程的问题。我们对光滑的环流的考虑与先前的积极国家估计和模糊的方法形成对比,而后者则诉诸于边际(或即时)状态的不确定性措施,因为可移性问题。我们根据POMDP通常的信仰状态,对光滑的环流进行新的表达,我们表明,我们的积极估计和模糊问题可以作为在信仰状态中充分观察到的Markov决定过程(MDPs)重新拟订。令人惊讶的是,我们发现,对主动估计和迷惑两种方法的信念-状态的重新拟订,与连锁成本和成本-成本-go函数相比,使得能够使用标准的POMDP技术来构建可拉动的捆绑的(近)解决方案。我们在模拟中显示,对光滑的诱导器的优化可导致高级的轨迹估计和反转的替代方法。

0
下载
关闭预览

相关内容

专知会员服务
51+阅读 · 2020年12月14日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
4+阅读 · 2018年3月14日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员