This paper studies the problem of developing an approximate dynamic programming (ADP) framework for learning online the value function of an infinite-horizon optimal problem while obeying safety constraints expressed as control barrier functions (CBFs). Our approach is facilitated by the development of a novel class of CBFs, termed Lyapunov-like CBFs (LCBFs), that retain the beneficial properties of CBFs for developing minimally-invasive safe control policies while also possessing desirable Lyapunov-like qualities such as positive semi-definiteness. We show how these LCBFs can be used to augment a learning-based control policy so as to guarantee safety and then leverage this approach to develop a safe exploration framework in a model-based reinforcement learning setting. We demonstrate that our developed approach can handle more general safety constraints than state-of-the-art safe ADP methods through a variety of numerical examples.


翻译:本文研究开发一个大致动态方案规划框架(ADP),在网上学习一个无限之平的最佳问题的价值功能,同时遵守作为控制屏障功能(CBFs)所表达的安全限制(CBFs)的问题。我们的方法通过开发一个新型的CBFs(称为Lyapunov-类似CBFs(LCDFs))得到推动,这些CBFs保留了CBFs的有益特性,用于制定最低侵入性安全控制政策,同时拥有像Lyapunov这样的像Lyapunov一样的品质,如积极的半确定性。我们展示了如何利用这些LCBFs来加强基于学习的控制政策,以保障安全,然后在基于模型的强化学习环境中利用这一方法制定安全探索框架。我们通过各种数字实例表明,我们制定的方法可以处理比最先进的安全ADP方法更一般性的安全限制。

0
下载
关闭预览

相关内容

【CMU】最新深度学习课程, Introduction to Deep Learning
专知会员服务
36+阅读 · 2020年9月12日
【DeepMind】强化学习教程,83页ppt
专知会员服务
151+阅读 · 2020年8月7日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Delay-aware Robust Control for Safe Autonomous Driving
Arxiv
0+阅读 · 2021年11月30日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
4+阅读 · 2018年12月3日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Delay-aware Robust Control for Safe Autonomous Driving
Arxiv
0+阅读 · 2021年11月30日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
4+阅读 · 2018年12月3日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
5+阅读 · 2018年4月22日
Top
微信扫码咨询专知VIP会员