Risk-aware control, though with promise to tackle unexpected events, requires a known exact dynamical model. In this work, we propose a model-free framework to learn a risk-aware controller with a focus on the linear system. We formulate it as a discrete-time infinite-horizon LQR problem with a state predictive variance constraint. To solve it, we parameterize the policy with a feedback gain pair and leverage primal-dual methods to optimize it by solely using data. We first study the optimization landscape of the Lagrangian function and establish the strong duality in spite of its non-convex nature. Alongside, we find that the Lagrangian function enjoys an important local gradient dominance property, which is then exploited to develop a convergent random search algorithm to learn the dual function. Furthermore, we propose a primal-dual algorithm with global convergence to learn the optimal policy-multiplier pair. Finally, we validate our results via simulations.
翻译:风险意识控制, 虽然有希望应对意外事件的承诺, 也需要一个已知的精确动态模型。 在这项工作中, 我们提出一个没有模型的框架, 学习一个以线性系统为重点的风险意识控制器。 我们把它设计成一个独立时间的无限偏离 LQR 问题, 并有一个状态预测差异限制。 为了解决这个问题, 我们用反馈增益配对来参数化政策, 并且利用原始双向方法, 仅使用数据来优化政策。 我们首先研究拉格朗江函数的优化景观, 并且建立强大的双重性, 尽管其非 convex 性质。 此外, 我们发现拉格朗江函数拥有重要的本地梯度主导属性, 然后开发一个随机随机搜索算法来学习双函数 。 此外, 我们提出一种原始的双向算法, 以全球趋同方式学习最佳的政策多维值配对 。 最后, 我们通过模拟来验证我们的结果 。