Neural network controllers have become popular in control tasks thanks to their flexibility and expressivity. Stability is a crucial property for safety-critical dynamical systems, while stabilization of partially observed systems, in many cases, requires controllers to retain and process long-term memories of the past. We consider the important class of recurrent neural networks (RNN) as dynamic controllers for nonlinear uncertain partially-observed systems, and derive convex stability conditions based on integral quadratic constraints, S-lemma and sequential convexification. To ensure stability during the learning and control process, we propose a projected policy gradient method that iteratively enforces the stability conditions in the reparametrized space taking advantage of mild additional information on system dynamics. Numerical experiments show that our method learns stabilizing controllers while using fewer samples and achieving higher final performance compared with policy gradient.


翻译:神经网络控制器由于其灵活性和直观性,在控制任务中已变得很受欢迎。稳定是安全临界动态系统的关键属性,而部分观测到的系统的稳定在许多情况下需要控制器保存和处理过去的长期记忆。我们认为,重要的一类经常性神经网络(RNN)是非线性不确定部分观测到的系统动态控制器,根据整体四级限制、S-lemma和顺序凝固,产生锥形稳定条件。为了确保学习和控制过程的稳定,我们建议了一种预测的政策梯度方法,利用系统动态的微小的额外信息,迭接地执行重新修复空间的稳定条件。数字实验表明,我们的方法在使用较少的样本的同时学习稳定控制器,并实现比政策梯度更高的最终性能。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
52+阅读 · 2020年9月7日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
22+阅读 · 2020年1月28日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
23+阅读 · 2022年2月4日
Arxiv
3+阅读 · 2018年1月31日
VIP会员
Top
微信扫码咨询专知VIP会员