【学科发展报告】自适应动态规划

2018 年 9 月 14 日 中国自动化学会

一、引言

最优控制是生产和生活中常见的问题，在工业过程、航空航天、机器人和车辆等许多领域都有广泛的应用，同时也是控制理论的重要组成部分。最优控制能够最大限度地增加效益和最大限度地减少成本、资源的消耗。从数学角度寻找最优控制器相当于解决哈密尔顿—雅可比—贝尔曼（HJB）方程。动态规划（dynamic programming，DP）是求解最优控制问题的有效工具。然而随着系统状态和输入量维度的增加，这种方法的计算量急剧增加，即使是一个简单的问题，也无法通过简单的动态规划方法获得 HJB 方程的全局解析解。这就是动态规划的“维数灾”问题。

1977 年，Werbos 首次提出了一种自适应评价设计方法（ACD）进行前向时间求解动态规划［1］。此后又有许多新的名词出现，如近似动态规划（Approximate Dynamic Programming，ADP），神经动态规划（Neuron-Dynamic Programming，NDP）、自适应动态规划（Adaptive dynamic programming，ADP）等，2006 年，美国科学基金会组织的近似动态规划学习研讨会上，将这类统一命名为自适应动态规划—— ADP。自适应动态规划本质上基于强化学习原理，模拟人通过环境反馈进行学习，近年来被认为是一种非常接近人脑智能的方法。由于其在非线性系统优化控制方面的强大优势而被广泛研究。自适应动态规划方法以传统的动态规划方法为基础。它采用函数近似器如（神经网络）来逼近性能指标函数，利用逼近的性能指标来优化控制律，并最终实现对控制系统的优化。同时，为了得到HJB方程的近似解，自适应动态规划算法得到了广泛关注。按实现结构划分，自适应动态规划可以分为启发式动态规划（HDP）、二次启发式动态规划（DHP）、全局二次启发式动态规划（GDHP）、执行依赖启发式动态规划（ADHDP）、执行依赖二次启发式动态规划（ADDHP）等。其中执行依赖启发式动态规划和执行依赖双启发式动态规划由于其实现结构不需要模型网络，并且能够在被控对象未知的情况下在线求解最优控制，因此，也被称为Q 学习。自适应动态规划方法利用执行—评价结构（函数近似结构）来近似性能指标函数和最优控制策略，求解 HJB 方程，有效地克服动态规划的“维数灾”问题［2］。

ADP 的实现通常是利用离线或在线数据，采用函数逼近结构估计代价函数或其偏导数，使其逼近动态规划的最优控制律。ADP 以经典的最优控制方法为理论基础，融合了人工智能先进技术，为解决大规模非线性系统优化控制问题提供了新的途径。该方法采用非线性函数结构来近似动态规划中的性能指标函数，为高维复杂非线性系统的最优控制提供了一种切实可行的理论和方法。方法自提出以来，吸引了控制领域大量国内外研究机构的专家学者团队的极大关注和重视并迅速发展，涌现出许多富有意义的研究成果［3-11］。

二、我国的发展现状

目前，一大部分的自适应动态规划求解是在系统模型已知的基础上进行的。对于已知的系统模型又被分成以下两种情况：基于完全已知模型的自适应动态规划，例如在参考文献［12］中，通过广义值迭代来解决连续时间仿射非线性系统的最优跟踪控制问题；基于部分已知模型的自适应动态规划，例如参考文献［13］，为了学习部分已知的动态系统的最优解而提出了一种在线自适应动态规划方法。

随着科学技术特别是信息科学技术的快速发展，我国的工业企业控制系统发生了重大变化。控制系统的规模越来越大，控制系统的非线性程度越来越高，控制系统的多变量、多控制器等因素使得控制系统越来越复杂导致系统机理模型越来越难以建立。对此，基于数据驱动的自适应动态规划无模型控制近两年也得到了很大的发展［14］。解决该问题的思路主要有：基于数据进行系统辨识，利用辨识后的系统进行控制器的设计。例如在参考文献［15］中通过神经网络利用输入输出数据来重构未知系统的动态模型，利用策略迭代求解最优控制问题。基于系统状态和控制信息进行控制器设计，例如参考文献［16］，在系统模型完全未知的情况下，利用包含系统状态信息和控制信息的数据集合通过离线策略迭代的方法设计系统控制器。本身作为无模型的方法，Q学习同样可以被用来解决最优控制问题。例如参考文献［17］，Q学习被用来求解离散时间非仿射非线性系统无模型最优跟踪控制策略。

关于自适应动态规划在应用方面的研究也取得很大的成果。对于离散时间动态性能未知的多智能体系统，一些团队采用数据驱动的自适应动态规划方法来解决最优一致性问题［18］。针对顺序拓扑攻击下的输电网弱点分析，一些文献将自适应动态规划方法应用在智能电网问题中来解决漏电攻击问题，提出了识别关键攻击序列的 Q 学习方法［19］。一些文献通过将自适应动态规划方法应用到汽车的速度控制和燃料控制中，实现汽车的跟踪问题等［20］。由于具有很好的发展前景，越来越多的科研工作者对自适应动态规划方法的研究产生了浓厚的兴趣，也将推动自适应动态规划的发展。

事件驱动的自适应动态规划方法在过去的两年中获得了专家学者的广泛关注［21］。在事件驱动方法中，只有在事件触发时，控制律才进行更新控制。这种方法能够有效地减少最优控制方法的计算量，在一些理论证明后，又能够在很大程度上保持了方法的精确度，大大提升了控制系统的工作效率。参考文献［22］研究了针对非线性连续系统的事件驱动双启发式动态规划方法。在参考文献［23］中，研究者采用事件驱动自适应动态规划方法解决非线性H ∞状态反馈控制问题。参考文献［24］用事件驱动自适应动态规划方法解决了非线性鲁棒状态反馈问题。在应用方面，研究者在参考文献［25］中考虑了电力系统应用中的事件驱动非线性最优调节问题。

面对广泛的对象、复杂的系统，自适应动态规划方法还有很多提升空间，众多国内高校、研究机构也在为完善自适应动态规划方法做着自己的努力，包括结构、算法的改进和发展、算法收敛性和稳定性分析以及 ADP 的应用。

东北大学自动化研究中心提出了一种新的 HDP 迭代算法用来求解带时滞的非线性系统的最优跟踪控制问题。在参考文献［26］中，针对带有外部干扰和输入约束不确定非线性系统，设计了基于自适应动态规划方法的 H ∞跟踪控制器。在参考文献［27］中，针对多时滞线性离散系统，基于坐标变换技术，推导了原系统多时滞的最小延误等效系统，提出了一类新的最优跟踪控制方案。在参考文献［28］中，探讨了利用数据驱动的自适应动态规划方法解决完全未知的动态离散多智能体系统的最优控制问题。参考文献［29］针对非线性大规模互联系统，提出了分散自适应跟踪控制方法。参考文献［30］对于一类具有完全未知动态连续时间非线性系统，应用基于数据的自适应动态规划方法解决其容错控制问题。

中国科学院自动化研究所复杂系统管理与控制国家重点实验室针对自适应动态规划方法在多个方面进行了研究：针对代价函数含折扣因子的一类未知非线性系统，推导出一种基于GDHP的神经最优控制方案，另外，基于GDHP 技术设计了为求解控制受饱和约束的非线性系统的最优控制问题的最优控制器。在参考文献［31］中研究了局部值迭代自适应动态规划方法，并进行了收敛性分析、容许性分析以及终止性分析。此外，在参考文献［32］中还研究了一种新的Q 学习方法，提出了更为简单有效的学习率函数，确保迭代 Q函数能够收敛到最优。同时，应用迭代零和自适应动态规划方法，用于解决非线性系统无限时间的零和问题［33］。此外，研究团队还对自适应动态规划方法的应用推广做出了贡献，参考文献［34］研究了智能电网环境下可再生太阳能发电系统的最优储能控制系统，以及电池能源管理控制系统。参考文献［35］研究了基于自适应动态规划方法的容错控制系统。为了适应更复杂的非线性系统，在参考文献［36］中还研究了基于自适应动态规划针对不确定非线性系统的鲁棒控制。另外，参考文献［12］中还提出了广义自适应动态规划方法，揭示了策略迭代与值迭代的本质区别与联系，使研究者更好的理解自适应动态规划方法。参考文献［37］研究了基于数据的策略梯度自适应动态规划方法。

还有很多其他国内高校及研究机构发表了众多研究成果：针对非线性多项式系统，提出了一种新的策略迭代 ADP 算法［38］，这种算法简化了解决HJB 方程的问题，并且不需要神经网络近似结构，显著地提高了计算速度。同时，还证明了这种算法能够使一般的多项式系统全局稳定。提出了一种自适应能量管理策略［39］，实现了对发电机、电池和插入式混合动力电动汽车超级电容器能源的优化配置。研究了具有非线性动态不确定性的连续时间不确定系统的自适应最优输出反馈问题［40］。基于策略迭代和值迭代方法，采用基于输出反馈的数据驱动ADP 控制策略。不同于现有 ADP 算法，所得到的自适应和最优输出反馈控制器来自采样系统。这种方法对动态系统的不确定性具有鲁棒性。在小增益条件下，系统是全局渐近稳定的。将平均能源调度问题定义为一个无限时间的马尔可夫决策过程，采用在线 ADP 方法使得性能指标最大化［41］。

三、国外发展现状

近年来，国外众多高校和研究机构的专家学者对 ADP 的发展也做出了许多的贡献。美国罗德岛大学的研究团队在参考文献［42］中研究了新的自适应动态规划方法结构，包括 GrADP 方法以及 GrDHP，并进行了收敛性的理论分析。团队还实现了自适应动态规划方法的应用研究：参考文献［43］将扰动和参数不确定性考虑在负载频率控制模型中，提出了电力系统负荷频率控制的改进滑模综合自适应学习策略。参考文献［44］建立了连续时间输入仿射系统智能计算控制设计与应用的框架，以达到减少干扰影响的目的。

美国得克萨斯大学阿灵顿分校的团队在参考文献［45］研究了基于自适应动态规划的“脱策”方法，用于解决非线性连续系统的多人非零和游戏问题。参考文献［46］应用“脱策”自适应动态规划方法解决异构线性多智能体系统的最优输出同步问题。

密苏里大学的研究团队研究了非线性离散系统的事件驱动近似最优控制方法，他们的研究更注重的是自适应动态方法中的神经网络，在参考文献［47］中讨论了神经网络中权值的收敛性。在参考文献［48］中针对仿射非线性连续系统进行了研究，提出了基于事件驱动采样自适应动态规划的近似最优控制方法。参考文献［49］提出了一种基于事件驱动的随机自适应动态规划技术，用于反馈回路中具有通信网络的非线性系统。在参考文献［50］中，通过自适应动态规划方法，研究了基于输出反馈的不确定耦合半线性抛物型偏微分方程的边界控制。

四、国内外发展比较

综合国内外自适应动态规划领域的研究发展现状，可以看出自适应动态规划已经成为控制科学领域的重要组成部分，其在解决动态规划“维数灾”难题和最优控制问题上有着不可替代的作用。目前，国内的专家学者主要研究的是自适应动态规划方法理论，并不断提出新的方法，以弥补现有方法的不足。同时，也注重自适应动态规划方法的应用，在智能电网、工业过程等领域都有广泛的涉足。在国外专家学者的研究成果中，有对自适应动态规划方法中神经网络部分的深入研究，但更多的是与实际应用系统的结合，例如，用自适应动态规划方法解决多智能体等系统的最优化问题。可以说，国内的专家学者在理论上为自适应动态规划方法提供强有力的支撑，国外的专家学者更多的将自适应动态规划方法推广到应用中。

五、我国发展趋势与对策

自适应动态规划已经渐渐成为解决复杂系统最优问题的必备工具，也将对控制领域产生更深远的影响。但目前的自适应动态规划的众多方法还有许多不足之处，比如，自适应动态规划目前主要针对无限时间域非时变系统的最优控制问题，而对于时变系统研究较少。另外，自适应动态规划方法的计算量可以进一步的缩减，计算时间可以进一步的节约，尤其需要研究有限时间的自适应动态规划方法，对实际应用有重大意义。自适应动态规划方法也可以针对更多对象、更多系统发挥其作用，对实际应用有很好的指导价值与意义。另一方面，社会复杂性将在复杂系统优化控制问题中占据越来越重要的地位，平行动态规划方法（parallel dynamic programming，PDP）是基于自适应动态规划的基本想法，结合平行控制的 ACP 方法，是在工程复杂性和社会复杂性并存的情况下，通过对平行系统的描述解析、预测解析和引导解析，实现对复杂系统管理和控制的新途径。因此，平行动态规划方法有效结合工程复杂性与社会复杂性，将成为自适应动态规划方法发展的重要方向。

上下滑动查看参考文献

［1］ Werbos P J. Advanced Forecasting Methods for Global Crisis Warning and Models of Intelligence［J］．General Systems Yearbook，1977，22（6）：25-38.

［2］ Richard. Dynamic Programming［M］．Princeton University Press，1957.

［3］ Wei Q，Liu D，Lin H. Value Iteration Adaptive Dynamic Programming for Optimal Control of Discrete-Time Nonlinear Systems［J］．IEEE Transactions on Cybernetics，2016，46（3）：840-853.

［4］ Wang D，Liu D，Zhang Q，et al. Data-Based Adaptive Critic Designs for Nonlinear Robust Optimal Control With Uncertain Dynamics［J］．IEEE Transactions on Systems Man & Cybernetics Systems，2016，46（11）：1544- 1555.

［5］ Wang Z，Ding S，Huang Z，et al. Exponential Stability and Stabilization of Delayed Memristive Neural Networks Based on Quadratic Convex Combination Method［J］．IEEE Transactions on Neural Networks & Learning Systems，2015，27（11）：2337-2350.

［6］ Sun Q，Zhang Y，He H，et al. A Novel Energy Function-Based Stability Evaluation and Nonlinear Control Approach for Energy Internet［J］．IEEE Transactions on Smart Grid，2017，8（3）：1195-1210.

［7］ Xu X，Huang Z，Zuo L，et al. Manifold-Based Reinforcement Learning via Locally Linear Reconstruction［J］． IEEE Transactions on Neural Networks & Learning Systems，2017，28（4）：934-947.

［8］ Cai H，Lewis F L，Hu G，et al. The Adaptive Distributed Observer Approach to the Cooperative Output Regulation of Linear Multi-Agent Systems［J］．Automatica，2017，75：299-305.

［9］ Nasirian V，Shafiee Q，Guerrero J M，et al. Droop-Free Distributed Control for AC Microgrids［J］．IEEE Transactions on Power Electronics，2016，31（2）：1600-1617.

［10］ Sahoo A，Xu H，Jagannathan S. Adaptive Neural Network-Based Event-Triggered Control of Single-Input Single- Output Nonlinear Discrete-Time Systems［J］．IEEE Transactions on Neural Networks & Learning Systems， 2016，27（1）：151-164.

［11］ Narayanan V，Jagannathan S. Event-Triggered Distributed Approximate Optimal State and Output Control of Affine Nonlinear Interconnected Systems［J］．IEEE Transactions on Neural Networks & Learning Systems，2017，PP（99）： 1-11.

［12］ Lin Q，Wei Q，Liu D. A Novel Optimal Tracking Control Scheme for a Class of Discrete-Time Nonlinear Systems Using Generalised Policy Iteration Adaptive Dynamic Programming Algorithm［J］．International Journal of Systems Science，2017，48（3）：1-10.

［13］ Zhu Y，Zhao D，He H，et al. Event-Triggered Optimal Control for Partially-Unknown Constrained-Input Systems via Adaptive Dynamic Programming［J］．IEEE Transactions on Industrial Electronics，2016，PP（99）：1-1.

［14］ Liu D，Wei Q. Finite-Approximation-Error-Based Optimal Control Approach for Discrete-Time Nonlinear Systems

［J］．IEEE Transactions on Cybernetics，2012，43（2）：779-789.

［15］ Wei Q，Song R，Yan P. Data-Driven Zero-Sum Neuro-Optimal Control for a Class of Continuous-Time Unknown Nonlinear Systems With Disturbance Using ADP［J］．IEEE Transactions on Neural Networks & Learning Systems， 2016，27（2）：444-458.

［16］ Song R，Lewis F L，Wei Q. Off-Policy Integral Reinforcement Learning Method to Solve Nonlinear Continuous- Time Multiplayer Nonzero-Sum Game［s J］．IEEE Transactions on Neural Networks & Learning Systems，2016（99）： 1-10.

［17］ Luo B，Liu D，Huang T，et al. Model-Free Optimal Tracking Control via Critic-Only Q-Learning［J］．IEEE Transactions on Neural Networks & Learning Systems，2016，27（10）：2134-2144.

［18］ Zhang H，Jiang H，Luo Y，et al. Data-Driven Optimal Consensus Control for Discrete-Time Multi-Agent Systems With Unknown Dynamics Using Reinforcement Learning Method［J］．IEEE Transactions on Industrial Electronics，2017，64（5）：4091-4100.

［19］ Yan J，He H，Zhong X，et al. Q-Learning-Based Vulnerability Analysis of Smart Grid Against Sequential Topology Attacks［J］．IEEE Transactions on Information Forensics & Security，2017，12（1）：200-210.

［20］ Gao W，Jiang Z P，Ozbay K. Data-Driven Adaptive Optimal Control of Connected Vehicles［J］．IEEE Transactions on Intelligent Transportation Systems，2017，18（5）：1122-1133.

［21］ Zhang Q，Zhao D，Wang D. Event-Based Robust Control for Uncertain Nonlinear Systems Using Adaptive Dynamic Programming［J］．IEEE Transactions on Neural Networks & Learning Systems，2016，PP（99）：1-14.

［22］ Dong L，Sun C，He H. Dual heuristic dynamic programming based event-triggered control for nonlinear continuous-time systems［C］// International Joint Conference on Neural Networks. 2016：4241-4248.

［23］ Wang D，He H，Liu D. Improving the Critic Learning for Event-Based Nonlinear H ∞ Control Design［J］．IEEE Transactions on Cybernetics，2017：1-12.

［24］ Wang D，Mu C，Zhang Q，et al. Event-based input-constrained nonlinear H ∞ state feedback with adaptive critic and neural implementation［J］．Neurocomputing，2016，214：848-856.

［25］ Wang D，He H，Zhong X，et al. Event-Driven Nonlinear Discounted Optimal Regulation Involving A Power System Application［J］．IEEE Transactions on Industrial Electronics，2017，PP（99）：1-10.

［26］ Cui X，Zhang H，Luo Y，et al. Adaptive Dynamic Programming for H ∞ Tracking Design of Uncertain Nonlinear Systems with Disturbances and Input Constraints［J］．International Journal of Adaptive Control & Signal Processing，2017（5）.

［27］ Liu Y，Zhang H，Luo Y，et al. ADP Based Optimal Tracking Control for A Class of Linear Discrete-Time System with Multiple Delays［J］．Journal of the Franklin Institute，2016，353（9）：2117-2136.

［28］ Zhang K，Zhang H，Jiang H，et al. Data-driven Optimal Control for a Class of Unknown Continuous-Time Nonlinear System Using a Novel ADP Method［C］// International Conference on Intelligent Control & Information Processing. IEEE，2017：117-124.

［29］ Qu Q，Zhang H，Feng T，et al. Decentralized Adaptive Tracking Control Scheme for Nonlinear Large-Scale Interconnected Systems via Adaptive Dynamic Programming［J］．Neurocomputing，2017，225：1-10.

［30］ Jiang H，Zhang H，Liu Y，et al. Neural-Network-Based Control Scheme for a Class of Nonlinear Systems with Actuator Faults via Data-Driven Reinforcement Learning Method［J］．Neurocomputing，2017，239：1-8.

［31］ Wei Q，Lewis F L，Liu D，et al. Discrete-Time Local Value Iteration Adaptive Dynamic Programming： Convergence Analysis［J］．IEEE Transactions on Systems Man & Cybernetics Systems，2016（99）：1-17.

［32］ Wei Q，Lewis F L，Sun Q，et al. Discrete-Time Deterministic $Q$ -Learning：A Novel Convergence Analysis［J］． IEEE Transactions on Cybernetics，2016，47（5）：1224-1237.

［33］ Wei Q，Liu D，Lin Q，et al. Adaptive Dynamic Programming for Discrete-Time Zero-Sum Games［J］．IEEE Transactions on Neural Networks & Learning Systems，2017（99）：1-13.

［34］ Wei Q，Liu D，Lewis F L，et al. Mixed Iterative Adaptive Dynamic Programming for Optimal Battery Energy Control in Smart Residential Microgrids［J］．IEEE Transactions on Industrial Electronics，2017，64（5）： 4110-4120.

［35］ Zhao B，Liu D，Li Y. Observer Based Adaptive Dynamic Programming for Fault Tolerant Control of a Class of Nonlinear Systems［J］．Information Sciences，2016，384：21-33.

［36］ Huang Y，Wang D，Liu D. Bounded Robust Control Design for Uncertain Nonlinear Systems Using Single-Network Adaptive Dynamic Programming［J］．Neurocomputing，2017，266：128-140.

［37］ Luo B，Liu D，Wu H N，et al. Policy Gradient Adaptive Dynamic Programming for Data-Based Optimal Control［J］． IEEE Transactions on Cybernetics，2017（99）：1-14.

［38］ Jiang Y，Jiang Z P. Global Adaptive Dynamic Programming for Continuous-Time Nonlinear Systems［J］．IEEE Transactions on Automatic Control，2015，60（11）：2917-2929.

［39］ Zhang S，Xiong R. Adaptive Energy Management of a Plug-In Hybrid Electric Vehicle Based on Driving Pattern Recognition and Dynamic Programming［J］．Applied Energy，2015，155：68-78.

［40］ Gao W，Jiang Y，Jiang Z P，et al. Output-feedback Adaptive Optimal Control of Interconnected Systems Based on Robust Adaptive Dynamic Programming［J］．Automatica，2016，72：37-45.

［41］ Xie S，Zhong W，Xie K，et al. Fair Energy Scheduling for Vehicle-to-Grid Networks Using Adaptive Dynamic Programming［J］．IEEE Transactions on Neural Networks & Learning Systems，2016，27（8）：1697-1707.

［42］ Zhong X，Ni Z，He H. Convergence Analysis of GrDHP-based Optimal Control for Discrete-Time Nonlinear System［C］// International Joint Conference on Neural Networks. 2016：4557-4564.

［43］ Mu C，Tang Y，He H. Improved Sliding Mode Design for Load Frequency Control of Power System Integrated an Adaptive Learning Strategy［J］．IEEE Transactions on Industrial Electronics，2017，64（8）：6742-6751.

［44］ Wang D，He H，Mu C，et al. Intelligent Critic Control With Disturbance Attenuation for Affine Dynamics Including an Application to a Microgrid System［J］．IEEE Transactions on Industrial Electronics，2017，64（6）：4935- 4944.

［45］ Song R，Lewis F L，Wei Q. Off-Policy Integral Reinforcement Learning Method to Solve Nonlinear Continuous- Time Multiplayer Nonzero-Sum Game［s J］．IEEE Transactions on Neural Networks & Learning Systems，2016（99）： 1-10.

［46］ Modares H，Nageshrao S P，Lopes G A D，et al. Optimal model-free output synchronization of heterogeneous systems using off-policy reinforcement learning［J］．Automatica，2016，71（C）：334-341.

［47］ Sahoo A，Xu H，Jagannathan S. Near Optimal Event-Triggered Control of Nonlinear Discrete-Time Systems Using Neurodynamic Programming［J］．IEEE Transactions on Neural Networks & Learning Systems，2016，27（9）： 1801-1815.

［48］ Sahoo A，Xu H，Jagannathan S. Approximate Optimal Control of Affine Nonlinear Continuous-Time Systems Using Event-Sampled Neurodynamic Programming［J］．IEEE Transactions on Neural Networks & Learning Systems， 2017（99）：1-14.

［49］ Sahoo A，Jagannathan S. Stochastic Optimal Regulation of Nonlinear Networked Control Systems by Using Event- Driven Adaptive Dynamic Programming［J］．IEEE Trans Cybern，2017，47（2）：425-438.

［50］ Talaei B，Jagannathan S，Singler J. Output Feedback-Based Boundary Control of Uncertain Coupled Semilinear Parabolic PDE Using Neurodynamic Programming［J］．IEEE Transactions on Neural Networks & Learning Systems，2017（99）：1-12.

来源：中国自动化学会

往期文章推荐