自主系统在人类能力的基础上进行扩展,可以在耐用性、力量和感知力等方面配备超人的属性,并可以提供许多好处,如卓越的效率、准确性和耐力,以及探索危险环境的能力。开发这种潜力需要一个能熟练操作自主系统的控制系统来完成其目标。一个静态的控制系统必须被精心设计以处理可能出现的任何情况。这促使在控制系统中引入学习,因为学习系统可以从其经验中学习,以管理其操作环境中的新的意外事件和变化。
传统的控制技术通常是在离线情况下设计的,假定对要控制的系统动态有确切的了解。这些基于知识的方法有一个重要的好处,即控制算法的稳定性特性可以被分析和认证,这样人们就可以对控制系统安全运行能力有信心。然而,应用于非线性系统的线性控制技术(所有的实际系统在某种程度上都是如此)会导致越来越保守,因此被控系统的非线性程度越高,控制性能就越低。非线性控制技术通常具有相当大的在线计算复杂性,这使得它们对于具有快速动态的系统以及计算能力和能源有限的嵌入式控制应用来说是不可行的。
强化学习是一个开发自我优化控制器的框架,它通过试错和根据观察到的行动结果调整其行为来学习并改善其运行。一般来说,强化学习不需要关于被控系统动态的知识,可以学习操作任意的非线性系统,其在线操作可以被设计成高度计算效率。因此,它是一个有价值的工具,适用于动态快速、非线性或不确定且难以建模的控制系统。另一方面,强化学习控制的一个核心挑战是它的行为是复杂和难以分析的,而且它没有对操作约束条件规范的内在支持。
弥补强化学习控制的这些挑战的方法是将其学习能力与现有的可信控制技术相结合。在本论文的第一部分,采用强化学习来优化模型预测控制(MPC)方案,这是一种强大而复杂的控制技术。提出了优化其元参数的新想法,即影响MPC解决的控制问题结构的参数,而不是影响给定问题解决方案的内部参数。特别是,优化了何时计算MPC和何种预测范围的元参数,并表明通过智能地选择计算条件,控制性能和计算复杂性可以同时得到改善。随后提出了一个框架,在这个框架中,这些元参数以及MPC的任何其他内部参数都可以与一个可配置的目标共同优化。最后,论文的第一部分还考虑了如何利用现有的控制器来加速控制器的学习过程。
无人驾驶飞行器(UAVs)的控制正是这样一种计算和能源资源有限的嵌入式应用,此外,其动力学是高度非线性的,并受到湍流等重大干扰的影响。在本论文的第二部分,我们提出了采用深度强化学习(DRL)对固定翼无人机进行低水平控制的新想法,与流行的多旋翼无人机设计相比,这种无人机的航程和有效载荷能力更强。我们提出了一种能够学习适合飞行的DRL控制器的方法,只需与被控系统进行3分钟的互动,并通过实际无人机的现场实验证明,DRL控制器与现有最先进的自动驾驶仪相比具有竞争力,在受控状态和控制信号中产生平滑的响应。