We consider the infinite-horizon, discrete-time full-information control problem. Motivated by learning theory, as a criterion for controller design we focus on regret, defined as the difference between the LQR cost of a causal controller (that has only access to past and current disturbances) and the LQR cost of a clairvoyant one (that has also access to future disturbances). In the full-information setting, there is a unique optimal non-causal controller that in terms of LQR cost dominates all other controllers. Since the regret itself is a function of the disturbances, we consider the worst-case regret over all possible bounded energy disturbances, and propose to find a causal controller that minimizes this worst-case regret. The resulting controller has the interpretation of guaranteeing the smallest possible regret compared to the best non-causal controller, no matter what the future disturbances are. We show that the regret-optimal control problem can be reduced to a Nehari problem, i.e., to approximate an anticausal operator with a causal one in the operator norm. In the state-space setting, explicit formulas for the optimal regret and for the regret-optimal controller (in both the causal and the strictly causal settings) are derived. The regret-optimal controller is the sum of the classical $H_2$ state-feedback law and a finite-dimensional controller obtained from the Nehari problem. The controller construction simply requires the solution to the standard LQR Riccati equation, in addition to two Lyapunov equations. Simulations over a range of plants demonstrates that the regret-optimal controller interpolates nicely between the $H_2$ and the $H_\infty$ optimal controllers, and generally has $H_2$ and $H_\infty$ costs that are simultaneously close to their optimal values. The regret-optimal controller thus presents itself as a viable option for control system design.


翻译:我们考虑的是无限和离散的全时信息控制问题。 以学习理论为动力, 作为控制器设计的标准, 我们专注于遗憾, 被定义为因果控制者( 只能接触过去和当前的扰动) 的LQR成本与clairvoyant ( 也能够接触未来的扰动) 的LQR成本之间的差别。 在完整的信息环境中, 有一种独特的最佳非因果控制器, 以LQR 的成本控制所有其他控制器。 由于遗憾本身是扰动的函数, 我们考虑对所有可能的受绑定的液态能源扰动的最坏的遗憾, 并提议寻找一个能尽量减少这种最坏的气态控制器。 由此, 相对于最好的非因果控制器来说, 未来扰动。 我们显示, 遗憾- 最佳控制问题可以降为Nehari 问题, 也就是说, 最坏的气态操作员和最坏的液压 。 在州- horral2 和最坏的汇率中, 最明显地表示最坏的汇率和最坏的汇率。

0
下载
关闭预览

相关内容

专知会员服务
85+阅读 · 2020年12月5日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
专知会员服务
96+阅读 · 2020年10月30日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
【新书】贝叶斯网络进展与新应用,附全书下载
专知会员服务
121+阅读 · 2019年12月9日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
277+阅读 · 2019年10月9日
【资源】文本风格迁移相关资源汇总
专知
13+阅读 · 2020年7月11日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
5+阅读 · 2018年5月1日
VIP会员
相关VIP内容
专知会员服务
85+阅读 · 2020年12月5日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
专知会员服务
96+阅读 · 2020年10月30日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
【新书】贝叶斯网络进展与新应用,附全书下载
专知会员服务
121+阅读 · 2019年12月9日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
277+阅读 · 2019年10月9日
相关资讯
【资源】文本风格迁移相关资源汇总
专知
13+阅读 · 2020年7月11日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员