最优控制是一个强大的控制器设计范式,因为它可以用相对简单的成本函数来隐含地编码复杂的稳定行为。然而,维度灾难和非凸优化的存在可能使得为复杂的高维系统可靠地获得稳定的控制器变得具有挑战性。近期,基于采样的强化学习方法使机器人学家能够为高维系统获得近似最优的反馈控制器,即使动力学未知。然而,这些方法在许多应用领域的实际部署仍然不够可靠。
这篇博士论文主张,可靠的基于优化的控制器合成的关键是深入理解我们写下的成本函数和我们设计的算法如何与控制系统的基础反馈几何结构相互作用。首先,我们将研究如何通过嵌入控制Lyapunov函数(这是系统的能量类函数)来加速无模型的强化学习。接下来,我们将介绍一种新的基于数据的策略优化框架,该框架将来自近似动力学模型和低级反馈控制器家族的结构信息嵌入到更新方案中。然后,我们转向动态规划的视角,研究系统的几何结构如何在计算或学习稳定控制器所需的计算量上施加根本性的限制。最后,我们研究基于导数的搜索算法,并研究如何设计用于模型预测控制方案的“好”成本函数,以确保即使使用基于梯度的方法在非凸目标上搜索,这些方法也能稳定系统。在整个过程中,我们将重点关注如何从简单的分析模型中获得的结构性洞见指导我们的设计决策,并将讨论其在动态行走、飞行控制和自动驾驶等应用中的用途。