【学科发展报告】数据驱动控制、学习与优化

2018 年 9 月 18 日 中国自动化学会

一、引言

经过半个多世纪的发展，现代控制理论及方法已得到空前完善，在工业过程、航空航天及军事等方面取得了瞩目成就。通常，现代控制理论需要受控对象数学模型或标称模型精确已知，是“基于模型”的控制理论。随着现代科学技术与社会经济的不断发展，一方面企业规模越来越大，生产、设备和过程越来越复杂；另一方面工业企业已进入大数据时代，在线产生海量运行数据，多变性和复杂性正以爆炸速率增长。所以，依赖模型的现代控制理论及方法，在实际应用中遇到了许多前所未有的挑战，数据驱动的控制理论及方法的产生与发展成为必然。

二、研究现状与主要成果

数据驱动的控制理论及方法是指控制器设计不显含受控过程的数学模型信息，仅利用受控系统的在线 / 离线输入输出数据及经过处理得到的知识来设计控制器并在一定假设下有收敛性、稳定性和鲁棒性分析保障的控制理论与方法［1，2］。具体到数据驱动控制、数据驱动学习、数据驱动建模及优化等典型环节，均不需要繁杂的机理 / 辨识建模过程。

（一）数据驱动控制

数据驱动控制摆脱了对受控系统数学模型的依赖性，其研究对象包括：①机理 /辨识模型很难建立或不可获取；②机理 /辨识模型可获取但非常复杂（阶数高、非线性性强、时变性强）；③机理 /辨识模型可获取但不确定性程度较大的被控系统。按照控制器结构是否已知为原则，可将现有的数据驱动控制方法分为控制器结构未知与控制器结构已知两大类。前者包括无模型自适应控制［3，4］、迭代学习控制［5，6］、懒惰学习控制方法［7］、Q学习最优控制方法［8］以及经典的PID 控制技术等多种方法，后者本质上是将控制器设计问题转化为控制器参数的辨识问题，主要包括基于同步扰动随机逼近的控制方法［9］、去伪控制［10］、迭代反馈整定［11］、虚拟参考反馈整定［12］、基于相关性的整定方法［13］等控制方案。

（二）数据驱动学习

数据驱动学习指系统仅利用运行过程的输入输出数据以及经过数据处理所得到的其他信息，对系统的模型、状态或者控制信息进行学习的理论与方法，其典型的代表为迭代学习控制。迭代学习控制可充分利用先前迭代批次中的实际运行数据来补偿不确定性，使得在给定有限时间区间上重复运行的未知或不确定动态系统能完美地跟踪期望信号。经过三十余年的发展，迭代学习控制已经形成了一系列富有特色的设计与分析框架，包括压缩映射方法［14，15］、复合能量函数方法［5，16］、模最优方法［17］、随机方法［6，18］、频域分析方法［19］等。迭代学习控制适用于有限时间内完成控制任务并重复工作的系统，包括搬运、装配、焊接、喷涂等工业机器人、交通系统、直线电机、半导体晶片生产过程、均热炉温度控制以及批处理过程等［20，21］。近年来迭代学习控制还应用到了轨道交通、康复医疗以及航空航天等领域。

（三）数据驱动建模与优化

数据驱动建模以描述样本数据特征作为建模的主要准则，在“数据为自身说话”的支撑下分析系统变量间的相互关系。数据驱动建模在复杂系统的软测量、控制器设计、安全评价等许多领域都是具有基础性意义的关键性技术。其中，最直接也是重要的应用就是“黑箱优化问题”，而相应的通过数据驱动求解黑箱优化问题的方法成为数据驱动优化方法。

众所周知，优化问题是指通过调整优化变量（输入）的值，最大化可测量的性能指标函数或最小化代价函数（输出）。在实际应用中，很多优化问题在求解时缺乏对问题描述的数学表达式，甚至连精确的目标函数都无法得到，从而导致该类问题的求解需要依赖于间接获得系统的输入输出关系，即基于数据驱动策略建立的模型。

在数据建模方面，主要的方法大致上可分为多元统计分析方法（主成分分析、偏最小二乘［22］、典型相关分析等）、浅层机器学习方法（人工神经网络、支持向量机［23］、极限学习机［24］等）和深度学习方法［25］三大类。以数据驱动建模为基础，数据驱动优化的研究可分为基于建立黑箱模型的常规优化方法（基于各种群智能搜索算法，如蚁群算法［27］和粒子群算法［28］）以及基于自适应动态规划方法的无模型优化方法［29］。目前数据驱动的建模与优化理论研究理论体系正在逐步形成，并在实际应用中取得了大量成果。

三、国内外发展比较与趋势

数据驱动控制、学习与优化最早来源于计算机科学领域，旨在强调出发点和归宿都是数据，是一种“闭环”方式。自“数据驱动”的相关概念和想法提出以来，就受到了国内外信息领域研究的高度重视，尤其是在应用数学、计算机科学和控制界等。

在国际上，美国明尼苏达大学的数学应用研究所在 2002 年就专门召开了数据驱动与优化的专题研讨会［30］。近年来，数据驱动的控制、学习与建模优化已成为国际科技竞争力的焦点，吸引了众多学者和科研院所的关注。于 2016 年在 IFAC 专业技术委员会组织的 Systems & Control-Decision Research Agenda 中，提出数据驱动的动态建模与控制已成为当今至为关键的创新研究和挑战之一［31］。此外，在 ACC、CDC、IFAC 和 WCICA 等国际权威学术会议上均设有“数据驱动”相关的主旨报告和专题讨论，并且在 IEEE T-NN， Information Sciences，IEEE T-II，IEEE T-IE，IET 等国际权威期刊上近年来都发表了一系列“数据驱动控制、学习与建模优化”相关的论文专辑。

相比国外而言，自 2008 年 11 月国家自然科学基金委（NSFC）召开“基于数据的控制、决策、调度与故障诊断”学术研讨会以来，数据驱动控制的发展更是如火如荼：2009 年 NSFC 资助了第一个数据驱动控制理论研究的重点项目；2010 年 11 月，NSFC 联合北京交通大学召开“International Workshop on Data Based Control，Modeling and Optimization”国际学术研讨会；2011 年 NSFC 批准了“基于数据的系统控制、调度、故障诊断与动态感知”重点项目群。更值得一提的是，2015 年 6 月中国自动化学会批准成立了数据驱动控制学习与优化专业委员会，并依托该专委会组织召开每年一度的“数据驱动控制与学习系统”学术会议，现已成为国内数据驱动控制、学习与优化领域内的重要学术会议。另外，2009年以来，我国学者分别在《自动化学报》《Information Sciences》《IEEE T-IE》等期刊上发表了系列关于“数据驱动控制”的主要由国内学者完成的中英文综述［21，32-34］，产生了巨大影响力。

近年来，随着传感器、计算机、网络技术等的普及，数据驱动的方法和技术成为当今科学研究的“第四范式”，在传统数学工具、控制理论及方法面对研究过于复杂的系统建模、优化与控制问题显得无能为力时，数据驱动控制的“第四范式”成为最有希望解决这些难题的选择，从而成为今后控制科学与工程领域一项紧迫而重要的科学任务。

四、需求与展望

目前，针对数据驱动控制、学习与优化的研究还不够充分，理论研究尚处于探索阶段，缺乏系统性的成果。该新兴研究方向的重点需求与展望可总结如下。

（一）数据驱动控制

（1）建立数据驱动控制的统一研究框架。对已存在的各种数据驱动控制方法进行相互借鉴、渗透和移植，提炼出共同的基础理论及研究框架，如控制器参数辨识结构框架、动态线性化框架、梯度信息的估计框架等，将对数据驱动控制的设计和分析具有重要的指导意义。

（2）稳定性、收敛性和鲁棒性理论分析手段和方法的研究是数据驱动控制健康发展的基石。数据驱动控制直接从 I/O 数据到控制器，没有基于机理或系统辨识的建模过程，因此稳定性、收敛性和鲁棒性分析也是直接基于 I/O 数据的。因此，需要建立基于数据的相关控制性能的定义及分析手段，进一步完善数据驱动控制的理论体系。

（3）各种数据挖掘算法、特征提取算法、模式识别算法、机器学习算法、统计分析算法、高级优化算法等已非常丰富，而现有的 IT 硬件技术又为这些离线算法的在线实现提供了计算基础。因此，探讨如何将离线数据中蕴含的系统动力学及运行规律和模式在数据驱动控制设计中的进行应用，无疑是一个重要的研究课题。

（4）大数据系统含有大量的不确定性，因而不能使受控系统的机理建模变得更加准确，但可通过数据分析处理挖掘与学习等手段，获取和发现各系统间或变量的关联关系数据模型，甚至是因果关系模型，提供更加广泛的控制手段。

（二）数据驱动学习

（1）实际系统在运行过程中会不可避免地存在各种不确定性，特别是不同批次之间的不确定性并非固定不变。因此，如何在大量数据中合理发掘其中的不变量以及巧妙地处理变化因素，将会为数据驱动学习方法的发展提供广阔的天地。

（2）系统运行会产生大量的数据，但这些数据可能会由于量测噪声、数据传输丢包、通信延迟、存储空间有限、采样精度不高等因素，使得所获取的数据是不精确乃至不准确的数据（称为信息有损数据）。因此，研究如何利用信息有损数据进行目标学习与改进，如何评估在信息有损环境下算法的学习能力，以及相应的鲁棒性及鲁棒性增强方法，均具有重要意义。

（3）迭代学习控制是一种自控制角度产生的学习与控制方法，其本质仍是沿迭代轴对目标变量进行比例型的校正来实现渐近的学习过程。因而，可借鉴并融合其他的控制与学习思想（如机器学习与深度学习），来发展出更多基于数据的学习模式与学习算法，尤其是发展类人思维的学习模式。

（三）数据驱动建模与优化

（1）现有研究发现，单一的数据驱动建模方法，往往不能取得最好的效果，通常需要融合其他方法，才会带来更高的建模精度和推广能力。因此，如何将深度学习方法与其他方法融合，并将其真正应用于实际过程，具有非常重要的研究意义。

（2）无模型优化与基于黑箱模型的常规优化方法相比，是解决复杂过程的优化问题的更直接的方法。随着近年来执行—评价结构的自适应动态规划方法的突破，使得无模型优化成为解决高维连续黑箱优化问题的很有潜力的研究方法。

（3）由于优化问题种类的多样性，模型法和无模型法在未来相当长时间内依然会并存。模型法应用于参数寻优问题，而无模型法应用于最优剖面曲线的寻优问题。在未来的发展方向上，两者都将在解决动态连续系统优化问题的背景下进行发展与改进。同时，在发展过程中，如何与人工智能、统计分析等其他学科相交叉和综合发展，并借助其他领域的研究进展进行关键技术的突破，也将是该方面研究的重点。

五、结束语

数据驱动的理论方法与基于模型的理论方法一起构成了完整的现代控制理论与优化学习体系，是不可缺少的两个组成部分。本报告对数据驱动控制、学习与优化的研究现状进行了概述，综述了相关问题的研究成果，回顾了本领域的发展趋势，并进一步对未来的发展需求进行了展望。总体来讲，与基于模型的理论方法究相比，数据驱动控制、学习与优化的研究成果还很少，尚未建立统一的研究范式和理论分析框架。同时，数据驱动的控制、学习与优化对现代各种应用场景中模型复杂、机理不明、数据海量的现状无疑是十分有效的解决方案。因此，深入分析和研究数据驱动的控制、学习与优化理论及方法，将是未来自动控制领域一个重要的研究方向。

参考文献

［1］ Hou Z.S.，Wang Z. From model-based control to data-driven control：Survey，classification and perspective［J］． Information Sciences，2013，235：3-35.

［2］ Hou Z.S.，Xu J.X. On data-driven control theory：The state of the art and perspective［J］．Acta Automatica Sinica，2009，35（6）：650-667.

［3］侯忠生，金尚泰 . 无模型自适应控制——理论与应用［M］．科学出版社，2013.

［4］ Hou Z.S.，Jin S.T. Model Free Adaptive Control：Theory and Applications［M］．CRC Press，2013.

［5］ Xu J.X. A survey on iterative learning control for nonlinear systems［J］．International Journal of Control，2011，84

（7）：1275-1294.

［6］ Shen D.，Wang Y. Survey on stochastic iterative learning control［J］．Journal of Process Control，2014，24（12）： 64-77.

［7］ Pan T.H.，Li S.Y.，Cai W.J. Lazy learning-based online identification and adaptive PID control：A case study for CSTR process［J］．Industrial and Engineering Chemistry Research，2007，46（2）：472-480.

［8］ Mitchell T.M. Mechine Learning［M］．McGraw-Hill Science Engineering Math，1997.

［9］ Spall J.C. Multivariate stochastic approximation using a simultaneous perturbation gradient approximation［J］．IEEE Transactions on Automatic Control，1992，37（3）：332-341.

［10］ Safonov M.G.，Tsao T.C. The unfalsified control concept and learning［J］．IEEE Transactions on Automatic Control，1997，42（6）：843-847.

［11］ Hjalmarsson H.，Gunnarsson S.，Gevers M. A convergent iterative restricted complexity control design scheme［C］． Proc. of the 33rd IEEE Conference on Decision and Control，Orlando，USA，1994：1735-1740.

［12］ Guardabassi G.O.，Savaresi S.M. Virtual reference direct design method：An off-line approach to data-based control system design［J］．IEEE Transactions on Automatic Control，2000，45（5）：954-959.

［13］ Miskovic L.，Karimi A.，Bonvin D.，Gevers M. Correlation-based tuning of decoupling multivariable controllers［J］． Automatica，2007，43：1482-1494.

［14］ Chien C.J.. A Discrete iterative learning control for a class of nonlinear time-varying systems［J］．IEEE Transactions on Automatic Control，1998，43（5）：748-752.

［15］ Moore K.L.，Chen Y.，Bahl V. Monotonically convergent iterative learning control for linear discrete-time systems［J］． Automatica，2005，41（9）：1529-1537.

［16］ Xu J.X.，Tan Y. A composite energy function-based learning control approach for nonlinear systems with time- varying parametric uncertainties［J］．IEEE Transactions on Automatic Control，2002，47（11）：1940-1945.

［17］ Owens D.H. Iterative Learning Control：An Optimization Paradigm［M］．Springer-Verlag London，2016.

［18］ Saab S.S. A discrete-time stochastic learning control algorithm［J］．IEEE Transactions on Automatic Control， 2001，46（6）：877-887.

［19］ Norrlof M.，Gunnarsson S. Time and frequency domain convergence properties in iterative learning control［J］． International Journal of Control，2002，75（14）：1114-1126.

［20］ Ahn H.S.，Chen Y.，Moore K.L. Iterative learning control：Brief survey and categorization［J］．IEEE Transactions on Systems，Man，and Cybernetics-Part C：Applications and Reviews，2007，37（6）：1099- 1121.

［21］池荣虎，侯忠生，黄彪 . 间歇过程最优迭代学习控制的发展：从基于模型到数据驱动［J］．自动化学报， 2017，43（6）：917-932.

［22］ Dijkstra，T.K.，Henseler，J.Consistent partial least squares path modeling［J］．MIS Quarterly，2015，39（2）： 297-316.

［23］ Santos J.D.A.，Barreto G.A. A regularized estimation framework for online sparse LSSVR models［J］． Neurocomputing，2017，238：114-125.

［24］ Huang G.B.，Zhou H.，Ding X.，et al. Extreme learning machine for regression and multiclass classification［J］． IEEE Transactions on Systems，Man，and Cybernetics-Part B：Cybernetics，2012，42（2）：513-528.

［25］ Hinton G.E.，Osindero S.，Teh Y.W. A fast learning algorithm for deep belief nets［J］．Neural computation， 2006，18（7）：1527-1554.

［26］ Jin X，Shao J.，Zhang X.，et al. Modeling of nonlinear system based on deep learning framework［J］．Nonlinear Dynamics，2016，84（3）：1327-1340.

［27］ Colorni A.，Dorigo M.，Maniezzo V. Distributed optimization by ant colonies［C］．Proc. the European Conference on Artificial Life，1991：134-142.

［28］ Kennedy J.，Eberhart R. Particle swarm optimization［C］．Proc. the IEEE International Conference on Neural Networks，1995：1942-1948.

［29］代伟，柴天佑 . 数据驱动的复杂磨矿过程运行优化控制方法［J］．自动化学报，2014，40（9）：2005-2014.

［30］ http：//www.ima.umn.edu/talks/，accessed on 9 September 2017.

［31］ Lamnabhi-Lagarrigue F.，Annaswamy A.，Engellc S.，et al. Systems & Control for the future of humanity， research agenda：Current and future roles，impact and grand challenges［J］．Annual Reviews in Control，2017， 43：1-64.

［32］ Yin S.，Li X.W.，Gao H.，et al. Data-based techniques focused on modern industry：An overview［J］．IEEE Transactions on Industrial Electronics，2015，62（1）：657-667.

［33］ Hou Z.S.，Chi R.H.，Gao H.J. An overview of dynamic linearization based data-driven control and applications［J］． IEEE Transactions on Industrial Electronics，2017，64（5）：4076-4090.

［34］刘强，秦泗钊 . 过程工业大数据建模研究展望［J］．自动化学报，2016，42（2）：161-171.

来源：中国自动化学会

往期文章推荐