部分可观测Markov决定程序在时间逻辑限制下强化学习 (Reinforcement Learning with Temporal Logic Constraints for Partially-Observable Markov Decision Processes) - 专知论文

会员服务 ·

0

约束 · 学成 · Processing（编程语言） · 强化学习 · 值迭代 ·

2021 年 4 月 4 日

Reinforcement Learning with Temporal Logic Constraints for Partially-Observable Markov Decision Processes

翻译：部分可观测Markov决定程序在时间逻辑限制下强化学习

Yu Wang,Alper Kamil Bozkurt,Miroslav Pajic

This paper proposes a reinforcement learning method for controller synthesis of autonomous systems in unknown and partially-observable environments with subjective time-dependent safety constraints. Mathematically, we model the system dynamics by a partially-observable Markov decision process (POMDP) with unknown transition/observation probabilities. The time-dependent safety constraint is captured by iLTL, a variation of linear temporal logic for state distributions. Our Reinforcement learning method first constructs the belief MDP of the POMDP, capturing the time evolution of estimated state distributions. Then, by building the product belief MDP of the belief MDP and the limiting deterministic B\uchi automaton (LDBA) of the temporal logic constraint, we transform the time-dependent safety constraint on the POMDP into a state-dependent constraint on the product belief MDP. Finally, we learn the optimal policy by value iteration under the state-dependent constraint.

翻译：本文建议了一种强化的学习方法,用于控制在未知和部分可观测环境中的自主系统合成控制器,并带有主观的、取决于时间的安全限制。从数学角度讲,我们用部分可观测的马尔科夫决定过程(POMDP)来模拟系统动态,其过渡/观察概率未知。取决于时间的安全限制由iLTL(国家分布线性时间逻辑的变异)来捕捉。我们的强化学习方法首先构建了POMDP的信念MDP(MDP),捕捉了估计国家分布的时间演变。然后,通过建立信仰MDP(MDP)的产品信仰MDP(MDP)和限制时间逻辑约束的确定性B\uchi Outomaton(LDBBA)(LDBA)的产品信仰MDP(MDP)的MDP(MDP),我们把对POMDP(P)依赖时间的安全限制转化为对产品信仰MDP(MDP)的依赖于国家的限制。最后,我们通过根据国家约束的数值来学习最佳政策。

0

相关内容

【ETH】最新《几何数据分析》2020课程，附PPT下载

专知会员服务

45+阅读 · 2020年12月18日

【干货书】机器学习速查手册，135页pdf

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

【干货书】Python程序员编程，810页pdf，Python® for Programmers

【干货书】Python程序员编程，810页pdf，Python® for Programmers

专知会员服务

62+阅读 · 2020年8月6日

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

专知会员服务

112+阅读 · 2020年5月15日

UC.Berkeley CS189讲义教材:《机器学习全面指南》，185页pdf

专知会员服务

162+阅读 · 2020年1月16日

【CAAI 2019】基于知识智能的机器人技能学习，清华大学|孙富春

【CAAI 2019】基于知识智能的机器人技能学习，清华大学|孙富春

专知会员服务

43+阅读 · 2019年12月1日

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

专知会员服务

246+阅读 · 2019年10月21日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

TensorFlow 2.0 学习资源汇总

TensorFlow 2.0 学习资源汇总

专知会员服务

67+阅读 · 2019年10月9日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

Targeted stochastic gradient Markov chain Monte Carlo for hidden Markov models with rare latent states

Arxiv

0+阅读 · 2021年5月27日

Adversarial Intrinsic Motivation for Reinforcement Learning

Adversarial Intrinsic Motivation for Reinforcement Learning

Arxiv

0+阅读 · 2021年5月27日

Analysis of Markov Jump Processes under Terminal Constraints

Arxiv

0+阅读 · 2021年5月27日

The q-Gauss-Newton method for unconstrained nonlinear optimization

Arxiv

0+阅读 · 2021年5月27日

Successive Convex Approximation Based Off-Policy Optimization for Constrained Reinforcement Learning

Arxiv

0+阅读 · 2021年5月26日

Markov Genealogy Processes

Arxiv

0+阅读 · 2021年5月26日

Runtime Monitoring for Markov Decision Processes

Arxiv

0+阅读 · 2021年5月26日

Learning to Infer User Hidden States for Online Sequential Advertising

Arxiv

9+阅读 · 2020年9月3日

Logically-Constrained Reinforcement Learning

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

Safety-aware Adaptive Reinforcement Learning with Applications to Brushbot Navigation

Arxiv

4+阅读 · 2018年1月29日

VIP会员

文章信息

相关主题

Processing（编程语言）

相关VIP内容

【ETH】最新《几何数据分析》2020课程，附PPT下载

专知会员服务

45+阅读 · 2020年12月18日

【干货书】机器学习速查手册，135页pdf

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

【干货书】Python程序员编程，810页pdf，Python® for Programmers

【干货书】Python程序员编程，810页pdf，Python® for Programmers

专知会员服务

62+阅读 · 2020年8月6日

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

专知会员服务

112+阅读 · 2020年5月15日

UC.Berkeley CS189讲义教材:《机器学习全面指南》，185页pdf

专知会员服务

162+阅读 · 2020年1月16日

【CAAI 2019】基于知识智能的机器人技能学习，清华大学|孙富春

【CAAI 2019】基于知识智能的机器人技能学习，清华大学|孙富春

专知会员服务

43+阅读 · 2019年12月1日

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

专知会员服务

246+阅读 · 2019年10月21日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

TensorFlow 2.0 学习资源汇总

TensorFlow 2.0 学习资源汇总

专知会员服务

67+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

多模态大语言模型下游调优中“保持自我”的重要性

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

相关资讯

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

Targeted stochastic gradient Markov chain Monte Carlo for hidden Markov models with rare latent states

Arxiv

0+阅读 · 2021年5月27日

Adversarial Intrinsic Motivation for Reinforcement Learning

Adversarial Intrinsic Motivation for Reinforcement Learning

Arxiv

0+阅读 · 2021年5月27日

Analysis of Markov Jump Processes under Terminal Constraints

Arxiv

0+阅读 · 2021年5月27日

The q-Gauss-Newton method for unconstrained nonlinear optimization

Arxiv

0+阅读 · 2021年5月27日

Successive Convex Approximation Based Off-Policy Optimization for Constrained Reinforcement Learning

Arxiv

0+阅读 · 2021年5月26日

Markov Genealogy Processes

Arxiv

0+阅读 · 2021年5月26日

Runtime Monitoring for Markov Decision Processes

Arxiv

0+阅读 · 2021年5月26日

Learning to Infer User Hidden States for Online Sequential Advertising

Arxiv

9+阅读 · 2020年9月3日

Logically-Constrained Reinforcement Learning

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

Safety-aware Adaptive Reinforcement Learning with Applications to Brushbot Navigation

Arxiv

4+阅读 · 2018年1月29日

微信扫码咨询专知VIP会员