最优控制是生产和生活中常见的问题,在工业过程、航空航天、机器人和车辆等许多领域都有广泛的应用,同时也是控制理论的重要组成部分。最优控制能够最大限度地增加效益和最大限度地减少成本、资源的消耗。从数学角度寻找最优控制器相当于解决哈密尔顿—雅可比—贝尔曼(HJB)方程。动态规划(dynamic programming,DP)是求解最优控制问题的有效工具。然而随着系统状态和输入量维度的增加,这种方法的计算量急剧增加,即使是一个简单的问题,也无法通过简单的动态规划方法获得 HJB 方程的全局解析解。这就是动态规划的“维数灾”问题。
1977 年,Werbos 首次提出了一种自适应评价设计方法(ACD)进行前向时间求解动态规划[1]。此后又有许多新的名词出现,如近似动态规划(Approximate Dynamic Programming,ADP),神经动态规划(Neuron-Dynamic Programming,NDP)、自适应动态规划(Adaptive dynamic programming,ADP)等,2006 年,美国科学基金会组织的近似动态规划学习研讨会上,将这类统一命名为自适应动态规划—— ADP。自适应动态规划本质上基于强化学习原理 ,模拟人通过环境反馈进行学习,近年来被认为是一种非常接近人脑智能的方法。由于其在非线性系统优化控制方面的强大优势而被广泛研究。自适应动态规划方法以传统的动态规划方法为基础。它采用函数近似器如(神经网络)来逼近性能指标函数,利用逼近的性能指标来优化控制律,并最终实现对控制系统的优化。同时,为了得到HJB方程的近似解,自适应动态规划算法得到了广泛关注。按实现结构划分,自适应动态规划可以分为启发式动态规划(HDP)、二次启发式动态规划(DHP)、全局二次启发式动态规划(GDHP)、执行依赖启发式动态规划(ADHDP)、执行依赖二次启发式动态规划(ADDHP)等。其中执行依赖启发式动态规划和执行依赖双启发式动态规划由于其实现结构不需要模型网络,并且能够在被控对象未知的情况下在线求解最优控制,因此,也被称为Q 学习。自适应动态规划方法利用执行—评价结构(函数近似结构)来近似性能指标函数和最优控制策略,求解 HJB 方程,有效地克服动态规划的“维数灾”问题[2]。
ADP 的实现通常是利用离线或在线数据,采用函数逼近结构估计代价函数或其偏导数,使其逼近动态规划的最优控制律。ADP 以经典的最优控制方法为理论基础,融合了人工智能先进技术,为解决大规模非线性系统优化控制问题提供了新的途径。该方法采用非线性函数结构来近似动态规划中的性能指标函数,为高维复杂非线性系统的最优控制提供了一种切实可行的理论和方法。方法自提出以来,吸引了控制领域大量国内外研究机构的专家学者团队的极大关注和重视并迅速发展,涌现出许多富有意义的研究成果[3-11]。
二、我国的发展现状
目前,一大部分的自适应动态规划求解是在系统模型已知的基础上进行的。对于已知的系统模型又被分成以下两种情况:基于完全已知模型的自适应动态规划,例如在参考文献[12]中,通过广义值迭代来解决连续时间仿射非线性系统的最优跟踪控制问题;基于部分已知模型的自适应动态规划,例如参考文献[13],为了学习部分已知的动态系统的最优解而提出了一种在线自适应动态规划方法。
随着科学技术特别是信息科学技术的快速发展,我国的工业企业控制系统发生了重大变化。控制系统的规模越来越大,控制系统的非线性程度越来越高,控制系统的多变量、多控制器等因素使得控制系统越来越复杂导致系统机理模型越来越难以建立。对此,基于数据驱动的自适应动态规划无模型控制近两年也得到了很大的发展[14]。解决该问题的思路主要有:基于数据进行系统辨识,利用辨识后的系统进行控制器的设计。例如在参考文献[15]中通过神经网络利用输入输出数据来重构未知系统的动态模型,利用策略迭代求解最优控制问题。基于系统状态和控制信息进行控制器设计,例如参考文献[16],在系统模型完全未知的情况下,利用包含系统状态信息和控制信息的数据集合通过离线策略迭代的方法设计系统控制器。本身作为无模型的方法,Q学习同样可以被用来解决最优控制问题。例如参考文献[17],Q学习被用来求解离散时间非仿射非线性系统无模型最优跟踪控制策略。
关于自适应动态规划在应用方面的研究也取得很大的成果。对于离散时间动态性能未知的多智能体系统,一些团队采用数据驱动的自适应动态规划方法来解决最优一致性问题[18]。针对顺序拓扑攻击下的输电网弱点分析,一些文献将自适应动态规划方法应用在智能电网问题中来解决漏电攻击问题,提出了识别关键攻击序列的 Q 学习方法[19]。一些文献通过将自适应动态规划方法应用到汽车的速度控制和燃料控制中,实现汽车的跟踪问题等[20]。由于具有很好的发展前景,越来越多的科研工作者对自适应动态规划方法的研究产生了浓厚的兴趣,也将推动自适应动态规划的发展。
事件驱动的自适应动态规划方法在过去的两年中获得了专家学者的广泛关注[21]。在 事件驱动方法中,只有在事件触发时,控制律才进行更新控制。这种方法能够有效地减少最优控制方法的计算量,在一些理论证明后,又能够在很大程度上保持了方法的精确度, 大大提升了控制系统的工作效率。参考文献[22]研究了针对非线性连续系统的事件驱动双启发式动态规划方法。在参考文献[23]中,研究者采用事件驱动自适应动态规划方法解决非线性H ∞状态反馈控制问题。参考文献[24]用事件驱动自适应动态规划方法解决了非线性鲁棒状态反馈问题。在应用方面,研究者在参考文献[25]中考虑了电力系统应用中的事件驱动非线性最优调节问题。
面对广泛的对象、复杂的系统,自适应动态规划方法还有很多提升空间,众多国内高校、研究机构也在为完善自适应动态规划方法做着自己的努力,包括结构、算法的改进和发展、算法收敛性和稳定性分析以及 ADP 的应用。
东北大学自动化研究中心提出了一种新的 HDP 迭代算法用来求解带时滞的非线性系统的最优跟踪控制问题。在参考文献[26]中,针对带有外部干扰和输入约束不确定非线性系统,设计了基于自适应动态规划方法的 H ∞跟踪控制器。在参考文献[27]中,针对多时滞线性离散系统,基于坐标变换技术,推导了原系统多时滞的最小延误等效系统, 提出了一类新的最优跟踪控制方案。在参考文献[28]中,探讨了利用数据驱动的自适应动态规划方法解决完全未知的动态离散多智能体系统的最优控制问题。参考文献[29]针对非线性大规模互联系统,提出了分散自适应跟踪控制方法。参考文献[30]对于一类具有完全未知动态连续时间非线性系统,应用基于数据的自适应动态规划方法解决其容错控制问题。
中国科学院自动化研究所复杂系统管理与控制国家重点实验室针对自适应动态规划方法在多个方面进行了研究:针对代价函数含折扣因子的一类未知非线性系统,推导出一种基于GDHP的神经最优控制方案,另外,基于GDHP 技术设计了为求解控制受饱和约束的非线性系统的最优控制问题的最优控制器。在参考文献[31]中研究了局部值迭代自适应动态规划方法,并进行了收敛性分析、容许性分析以及终止性分析。此外,在参考文献[32]中还研究了一种新的Q 学习方法,提出了更为简单有效的学习率函数,确保迭代 Q函数能够收敛到最优。同时,应用迭代零和自适应动态规划方法,用于解决非线性系统无限时间的零和问题[33]。此外,研究团队还对自适应动态规划方法的应用推广做出了贡献,参 考文献[34]研究了智能电网环境下可再生太阳能发电系统的最优储能控制系统,以及电池能源管理控制系统。参考文献[35]研究了基于自适应动态规划方法的容错控制系统。为了适应更复杂的非线性系统,在参考文献[36]中还研究了基于自适应动态规划针对不确定非线性系统的鲁棒控制。另外,参考文献[12]中还提出了广义自适应动态规划方法,揭示了策略迭代与值迭代的本质区别与联系,使研究者更好的理解自适应动态规划方法。参考文献[37]研究了基于数据的策略梯度自适应动态规划方法。
还有很多其他国内高校及研究机构发表了众多研究成果:针对非线性多项式系统,提出了一种新的策略迭代 ADP 算法[38],这种算法简化了解决HJB 方程的问题,并且不需要神经网络近似结构,显著地提高了计算速度。同时,还证明了这种算法能够使一般的多项式系统全局稳定。提出了一种自适应能量管理策略[39],实现了对发电机、电池和插入式 混合动力电动汽车超级电容器能源的优化配置。研究了具有非线性动态不确定性的连续时间不确定系统的自适应最优输出反馈问题[40]。基于策略迭代和值迭代方法,采用基于输出反馈的数据驱动ADP 控制策略。不同于现有 ADP 算法,所得到的自适应和最优输出反馈控制器来自采样系统。这种方法对动态系统的不确定性具有鲁棒性。在小增益条件下, 系统是全局渐近稳定的。将平均能源调度问题定义为一个无限时间的马尔可夫决策过程, 采用在线 ADP 方法使得性能指标最大化[41]。
三、国外发展现状
近年来,国外众多高校和研究机构的专家学者对 ADP 的发展也做出了许多的贡献。美国罗德岛大学的研究团队在参考文献[42]中研究了新的自适应动态规划方法结构,包括 GrADP 方法以及 GrDHP,并进行了收敛性的理论分析。团队还实现了自适应动态规划方法的应用研究:参考文献[43]将扰动和参数不确定性考虑在负载频率控制模型中,提出了电力系统负荷频率控制的改进滑模综合自适应学习策略。参考文献[44]建立了连续时间输入仿射系统智能计算控制设计与应用的框架,以达到减少干扰影响的目的。
美国得克萨斯大学阿灵顿分校的团队在参考文献[45]研究了基于自适应动态规划的“脱策”方法,用于解决非线性连续系统的多人非零和游戏问题。参考文献[46]应用“脱策”自适应动态规划方法解决异构线性多智能体系统的最优输出同步问题。
密苏里大学的研究团队研究了非线性离散系统的事件驱动近似最优控制方法,他们的研究更注重的是自适应动态方法中的神经网络,在参考文献[47]中讨论了神经网络中权值的收敛性。在参考文献[48]中针对仿射非线性连续系统进行了研究,提出了基于事件驱动采样自适应动态规划的近似最优控制方法。参考文献[49]提出了一种基于事件驱动的随机自适应动态规划技术,用于反馈回路中具有通信网络的非线性系统。在参考文献[50] 中,通过自适应动态规划方法,研究了基于输出反馈的不确定耦合半线性抛物型偏微分方程的边界控制。
四、国内外发展比较
综合国内外自适应动态规划领域的研究发展现状,可以看出自适应动态规划已经成为控制科学领域的重要组成部分,其在解决动态规划“维数灾”难题和最优控制问题上有着不可替代的作用。目前,国内的专家学者主要研究的是自适应动态规划方法理论,并不断提出新的方法,以弥补现有方法的不足。同时,也注重自适应动态规划方法的应用,在智能电网、工业过程等领域都有广泛的涉足。在国外专家学者的研究成果中,有对自适应动态规划方法中神经网络部分的深入研究,但更多的是与实际应用系统的结合,例如,用自适应动态规划方法解决多智能体等系统的最优化问题。可以说,国内的专家学者在理论上为自适应动态规划方法提供强有力的支撑,国外的专家学者更多的将自适应动态规划方法推广到应用中。
自适应动态规划已经渐渐成为解决复杂系统最优问题的必备工具,也将对控制领域产生更深远的影响。但目前的自适应动态规划的众多方法还有许多不足之处,比如,自适应动态规划目前主要针对无限时间域非时变系统的最优控制问题,而对于时变系统研究较少。另外,自适应动态规划方法的计算量可以进一步的缩减,计算时间可以进一步的节约,尤其需要研究有限时间的自适应动态规划方法,对实际应用有重大意义。自适应动态规划方法也可以针对更多对象、更多系统发挥其作用,对实际应用有很好的指导价值与意义。另一方面,社会复杂性将在复杂系统优化控制问题中占据越来越重要的地位,平行动态规划方法(parallel dynamic programming,PDP)是基于自适应动态规划的基本想法, 结合平行控制的 ACP 方法,是在工程复杂性和社会复杂性并存的情况下,通过对平行系统的描述解析、预测解析和引导解析,实现对复杂系统管理和控制的新途径。因此,平行动态规划方法有效结合工程复杂性与社会复杂性,将成为自适应动态规划方法发展的重要方向。
来源:中国自动化学会
往期文章推荐
🔗【ASSIA 7】第七期智能自动化学科前沿讲习班——群贤毕至,共话智能控制学术前沿、产业发展及应用实现!
🔗【通知】关于举办科普中国•2018互联网科普产品征集活动的通知
🔗【CAC 2018】2018中国自动化大会截稿日期延至9月25日,敬请踊跃投稿!
🔗【大赛报名】菲尼克斯智能技术创新与应用大赛参赛报名进行中,丰厚奖励等你来拿!
🔗【征文】首届ABB杯全国智能技术大赛征文中, 丰厚的奖励等你拿!
🔗【2018国家智能制造论坛】9月25日至26日,中国自动化学会与您相约宁波!
🔗【会员服务】中国自动化学会会员:现可免费申请IEEE Xplore数据库及InnovationQ Plus专利检索分析工具试用!