现今许多动态系统都属于所谓信息物理系统(CPS)的范畴。也就是说,它们是具有高度复杂性和异质性的系统,由各种数字和模拟组件组成,这些组件通过多个通信渠道相互通信。例如,小到我们的手机是一个CPS,大到电网也是一个CPS。然而,CPS能够融合复杂结构的能力也是其致命弱点:这导致了大量可能被渗透的入口点,使其容易受到试图造成破坏的恶意对手的攻击。这也带来了许多不确定性,而传统的基于模型的控制方法无法有效处理。基于这一现实,本论文聚焦于两个目标:创建基于博弈论和优化的决策工具,使信息物理系统能够抵御对手攻击;以及开发基于学习和无需近似的控制方法,以增强其在环境和模型不确定性下的韧性。

信息物理系统是具有高度异质性和复杂性的系统,包含多个数字和物理组件,这些组件通过各种通信渠道相互作用。由于其能够融合复杂结构,CPS可以在大量现实世界场景中找到踪迹,例如在汽车工业 [1] 和智能电网 [2] 中。就此而言,它们对于可能希望通过网络物理攻击制造混乱、中断和性能下降的对手来说,是一个诱人的目标,相关例子包括德国钢铁厂攻击 [3]、2015年乌克兰停电事件 [4] 和沙特阿美公司事件 [5]。这些实例使得对能够保证CPS在对抗性攻击下完整性和正常运行的安全方法的需求日益增长 [6]。

对手干扰CPS运行的一种有效方式是发起执行器攻击 [7, 8],也常被称为虚假数据注入攻击或欺骗攻击。这种攻击通过干扰CPS的软件、硬件或通信渠道,在CPS的控制输入中引入扰动,从而直接影响系统性能。它通常使用博弈论和最优控制理论的工具来设计,以便在保证攻击不被发现的约束条件下,最大化对CPS的破坏 [9, 10, 11, 12]。在本论文中,我们将设计控制架构来预防和缓解这些执行器攻击,以确保CPS的安全和正常运行。

博弈论工具 [13, 14] 已被用于开发CPS针对最坏情况攻击的韧性。特别是,CPS的操作员与潜在入侵者之间经常会出现双人竞争,这可以建模为具有共同效用的博弈。在这种情况下,博弈论可以产生具有韧性的决策机制,保证每个参与者的效用存在上界或下界。相应的决策也可以根据滚动时域控制的原则,以滚动时域的方式实现为反馈策略。本论文将利用零和博弈鞍点解所提供的韧性和安全性,来设计增强CPS安全性的控制方案。

然而,当能够操纵CPS的智能体超过两个时,本论文承认零和博弈的概念变得不那么相关。相反,经典的博弈论方法通常依赖于非零和纳什均衡 [13] 的概念来处理这些情况,该概念假设所有智能体都具有无限理性水平。但正如若干行为心理学和人类实验所表明的那样,无限理性假设并不现实,也很少符合实际情况 [15, 16]。因此,基于纳什均衡的模型常常无法预测CPS中的对抗行为,从而导致严重的安全问题和漏洞。这种失败促使各种研究小组采用有限理性模型,例如k级思维和认知层次,以增强CPS安全性 [17, 18, 19, 20, 21]。上述工作并非旨在改变CPS安全性问题的表述;相反,它们提出了不依赖于无限理性假设的替代解决方案。本论文也将依赖非均衡表述来建模动态博弈中的参与者行为,目的是用它们来模拟CPS的对手。论文还将从对手的角度研究在各种设置下最优攻击CPS的问题,以期更好地理解CPS的弱点,并进一步模拟对手的行为/思维模式。

对手可能对CPS构成威胁,但在复杂异构系统中自然产生的不确定性和未建模动态也是如此。为了解决这些问题,学习和自适应控制常被用作控制理论中的工具,例如自适应反步法 [22]、无模型最优控制 [23] 和预设性能控制 [24]。然而,这些例子以及文献中大多数专注于处理系统不确定性的先前工作,仅仅研究了基于学习的控制设计。另一方面,CPS核心组件的设计也同等重要,因为它们直接影响任何底层控制设计的效率。例如,应选择CPS的执行器使其易于控制,而其传感器则应选择能够提供尽可能多的关于CPS状态的信息。尽管先前的研究已经提出了各种传感器和执行器选择程序 [25, 26, 27, 28, 29, 30, 31, 32, 33],但这些程序并未嵌入基于学习的数据驱动方案,而该方案本可以使它们对不确定性更具鲁棒性。在本论文中,我们将首次设计此类数据驱动的传感器和执行器选择方案。

最后,虽然学习和自适应控制是在不确定性下进行控制设计的强大工具,但通常这种不确定性被假定满足某些结构性条件,这限制了任何相关应用的范围。例如,时钟偏移和量化 [34, 35, 36] 由于其固有的规模性和混沌性质而常出现在CPS中,但它们通常不满足现有学习方法中对不确定性施加的结构性条件。受此启发,在本论文中,我们将研究时钟偏移和量化对强化学习控制 [37, 38] 的影响,并将额外提出对不确定性具有增强鲁棒性的强化学习方法,并提供适当的安全保证。

论文的第一部分涉及通过预防措施增强对抗攻击的韧性。具体来说,在第二章中,我们将考虑在未知确定性扰动影响下,连续时间系统的执行器攻击检测问题。与大多数文献不同,我们假设系统的状态仅在特定时刻可供测量,这在传感器故障或可用计算资源有限的情况下尤其合理。这也是CPS中的常见场景,由于软件和物理系统的集成,CPS包含离散和连续组件。随后,在第三章中,我们将着手设计针对执行器攻击的缓解机制。具体来说,我们将考虑一个场景,其中防御者必须制定针对智能攻击者的缓解策略,该攻击者利用系统的不确定性来保持隐蔽。防御者的目标是优化一个专门为考虑对隐蔽攻击的鲁棒性而构建的性能成本,从而使系统得到调节。相反,攻击者的目标是利用其相对于防御者的显著信息优势来破坏系统性能。双方参与者将根据滚动时域控制的原则,以滚动时域的方式实施其策略。然而,由于防御者无法获取系统的完整状态,它将同时采用滚动时域估计来克服这一限制。

论文的第二部分侧重于对CPS对手行为进行建模,第四章和第五章为此目的使用有限理性模型。具体来说,在第四章中,我们将考虑一个受到多个隐蔽攻击者影响的CPS,这些攻击者的目标是使系统状态尽可能远离原点。然而,为了保持隐蔽性,攻击者必须确保其输入的总幅度保持在一定阈值以下,否则他们有可能被监视系统的检测机制发现。为了对攻击者的最优攻击策略进行建模,我们将上述设置解释为一个约束博弈,并在两种情况下求解:在第一种情况下,我们假设攻击者完全理性,基于纳什均衡行动,我们以封闭形式推导出该均衡;在第二种情况下,我们假设攻击者非完全理性,并设计了两种有限理性模型来捕捉他们不同的理性水平。然后,所提出的有限理性算法在第五章中在一般形式随机博弈的背景下得到推广,这为使用分布式算法实现它们提供了计算和通信高效的方法。最后,在第六章中,重点转移到数据驱动控制背景下的攻击者建模。我们特别考虑一个用户正在从线性系统收集输入和状态测量形式的数据,并使用这些数据来学习最优控制器。然而,这些测量值被一个能够访问系统执行器的攻击者破坏,该攻击者利用它们在学习过程中发起执行器攻击。我们对这种执行器攻击进行建模,使其能够最优地破坏用户使用的数据:它迫使用户尽可能接近地学习攻击者选择的一个增益,该增益与实际的最优控制增益无关。

论文的第三部分侧重于设计数据驱动算法,以增强CPS对模型不确定性的韧性,特别是在传感器和执行器选择的背景下。在这个方向上,第七章为信息物理系统开发了一种安全感知且基于学习的执行器选择方案。在仅部分了解系统物理知识的情况下,选择一组执行器供系统使用,以最大化可控性和执行器攻击韧性的度量指标。该指标与博弈论格拉姆矩阵的迹有关,该矩阵通过求解防御者(作为最小化方,希望调节系统)和攻击者(作为最大化方,最终目标是破坏调节)之间的零和博弈获得。为了解决对系统动力学缺乏完全了解的问题,设计了一个估计器,该估计器可以利用沿系统轨迹获得的数据在线学习所提出的博弈论格拉姆矩阵的迹。然后,在第八章中,我们提出了另一种数据驱动的执行器选择算法,但是在最优控制分配和执行器冗余系统的背景下。也就是说,我们考虑用额外的执行器最优地增广一个执行器冗余系统的问题,以使满足给定控制目标所需的能量最小化。这个问题在两个不同的情况下进行研究;首先,在系统的控制目标先验未知的情况下;其次,在控制目标是线性状态反馈控制律的情况下。最后,在第九章中,我们以执行器选择的对偶问题——(数据驱动的)传感器选择——来结束论文的这一部分。也就是说,我们选择一组传感器,以最大化CPS可观测性的度量指标,但不使用系统动力学的知识。结果表明,对该指标的评估可归结为求解一组基于模型的李雅普诺夫方程,然而,由于系统未知,这项任务无法直接执行。尽管如此,我们通过仅用输入输出数据来表达该指标来解决这个问题,并使用新的表达式以无模型方式并在多项式时间内为系统选择最佳传感器。

最后,论文的第四部分提出了各种用于韧性、高效和安全最优控制的算法。具体来说,第十章提出了一种用于由未知非线性动力学支配的系统的最优控制算法,以完成表达为时序逻辑约束的任务。该算法首先计算操作环境中一系列点及其相关的时间戳,如果系统遵循该序列,则能完成任务。在算法的第二步,我们开发了一种数据驱动的即时控制机制,学习如何在预先指定的时间范围内从序列中的一个点过渡到下一个点。该算法考虑了未知动力学、环境中的任何不安全区域以及额外的优化标准。在第十一章中,我们强调第十章所呈现形式的数据驱动算法依赖于神经网络的使用,因此其收敛性也取决于关于底层神经网络结构的几个限制性假设。受此启发,为了增强通过离策略强化学习过程获得的控制器的鲁棒性和安全保证,在第十一章中,我们提出将其与一个安全网络相结合。该安全网络是最小干预的,在其有效且能稳定的紧集内保持基于学习的控制器不变。另一方面,每当违反该集合时,安全网络会干预近似最优控制器,以保证闭环的有界性和系统本身的完整性。在第十二章中,我们还研究了第十至十一章算法对时钟偏移和量化的鲁棒性。最后,在第十三章中,我们提出了一种通过物理信息神经网络的方法,以非迭代方式求解非线性系统无限时域最优控制问题的方法。这与第十至十二章的算法形成对比,后者本质上都是迭代的。

成为VIP会员查看完整内容
3

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《拥挤与受限环境下机器人集群协同控制》150页
《基于特质的多机器人协调建模》191页
专知会员服务
40+阅读 · 2024年6月10日
《复杂多学科设计中不确定性缓解实验方法》278页
专知会员服务
43+阅读 · 2024年5月9日
《自主机器人集群的实际考虑和应用》200页
专知会员服务
57+阅读 · 2024年5月5日
《基于信念的决策建模计算框架》141页
专知会员服务
66+阅读 · 2024年4月27日
《多智能体搜索和任务分配的数学建模》92页论文
专知会员服务
115+阅读 · 2023年10月24日
最新《图嵌入组合优化》综述论文,40页pdf
【KDD2020】图神经网络:基础与应用,322页ppt
多模态深度学习综述,18页pdf
专知
50+阅读 · 2020年3月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
VIP会员
相关VIP内容
《拥挤与受限环境下机器人集群协同控制》150页
《基于特质的多机器人协调建模》191页
专知会员服务
40+阅读 · 2024年6月10日
《复杂多学科设计中不确定性缓解实验方法》278页
专知会员服务
43+阅读 · 2024年5月9日
《自主机器人集群的实际考虑和应用》200页
专知会员服务
57+阅读 · 2024年5月5日
《基于信念的决策建模计算框架》141页
专知会员服务
66+阅读 · 2024年4月27日
《多智能体搜索和任务分配的数学建模》92页论文
专知会员服务
115+阅读 · 2023年10月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员