最优控制是一个强大的控制器设计范式,因为它可以用相对简单的成本函数来隐含地编码复杂的稳定行为。然而,维度灾难和非凸优化的存在可能使得为复杂的高维系统可靠地获得稳定的控制器变得具有挑战性。近期,基于采样的强化学习方法使机器人学家能够为高维系统获得近似最优的反馈控制器,即使动力学未知。然而,这些方法在许多应用领域的实际部署仍然不够可靠。

这篇博士论文主张,可靠的基于优化的控制器合成的关键是深入理解我们写下的成本函数和我们设计的算法如何与控制系统的基础反馈几何结构相互作用。首先,我们将研究如何通过嵌入控制Lyapunov函数(这是系统的能量类函数)来加速无模型的强化学习。接下来,我们将介绍一种新的基于数据的策略优化框架,该框架将来自近似动力学模型和低级反馈控制器家族的结构信息嵌入到更新方案中。然后,我们转向动态规划的视角,研究系统的几何结构如何在计算或学习稳定控制器所需的计算量上施加根本性的限制。最后,我们研究基于导数的搜索算法,并研究如何设计用于模型预测控制方案的“好”成本函数,以确保即使使用基于梯度的方法在非凸目标上搜索,这些方法也能稳定系统。在整个过程中,我们将重点关注如何从简单的分析模型中获得的结构性洞见指导我们的设计决策,并将讨论其在动态行走、飞行控制和自动驾驶等应用中的用途。

成为VIP会员查看完整内容
20

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
82+阅读 · 2022年7月11日
Berkeley博士论文《反馈系统中的可信机器学习》203页pdf
专知会员服务
38+阅读 · 2022年3月25日
【MIT博士论文】数据高效强化学习,176页pdf
强化学习——蒙特卡洛方法介绍
论智
12+阅读 · 2018年6月3日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2022年5月6日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员