There has been substantial recent progress on the theoretical understanding of model-free approaches to Linear Quadratic Regulator (LQR) problems. Much attention has been devoted to the special case when the goal is to drive the state close to a zero target. In this work, we consider the general case where the target is allowed to be arbitrary, which we refer to as the LQR tracking problem. We study the optimization landscape of this problem, and show that similar to the zero-target LQR problem, the LQR tracking problem also satisfies gradient dominance and local smoothness properties. This allows us to develop a zeroth-order policy gradient algorithm that achieves global convergence. We support our arguments with numerical simulations on a linear system.


翻译:最近,在理论上理解对线性二次曲线监管(LQR)问题的无模式方法方面取得了实质性进展。当目标是将国家推向接近零目标时,对特例给予了极大的关注。在这项工作中,我们认为目标被允许为任意目标的一般情况,我们称之为LQR跟踪问题。我们研究了这一问题的优化情况,并表明,与零目标LQR问题相似,LQR跟踪问题也满足了梯度支配地位和当地平稳性能。这使我们能够开发零级政策梯度算法,实现全球趋同。我们用线性系统的数字模拟来支持我们的论点。

0
下载
关闭预览

相关内容

深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
197+阅读 · 2019年10月10日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【泡泡一分钟】ProbFlow:联合光流和不确定性估计
泡泡机器人SLAM
3+阅读 · 2018年10月26日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
VIP会员
相关VIP内容
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
197+阅读 · 2019年10月10日
相关资讯
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【泡泡一分钟】ProbFlow:联合光流和不确定性估计
泡泡机器人SLAM
3+阅读 · 2018年10月26日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员