【博士论文】《网络系统中安全资源分配的博弈论框架中行为决策效应》2022最新论文

2022 年 9 月 23 日 专知

摘要

面对来自外部对手越来越复杂的攻击，相互依赖的系统所有者必须明智地分配他们（通常是有限的）安全预算，以减少他们的网络风险。然而，在对人类决策进行建模时，行为经济学表明，人类始终偏离经典的决策模型。最值得注意的是，卡尼曼和特维斯基获得2002年诺贝尔经济学纪念奖的前景理论认为，人类以一种扭曲的方式感知收益、损失和可能性。虽然在经济学和心理学方面有丰富的前景理论文献，但现有的研究相互依存系统安全的工作大多没有考虑到上述的偏见。

在这篇论文中，我们提出了新的数学行为安全博弈模型，用于研究由有向攻击图建模的相互依赖系统中的人类决策。我们表明，行为偏差导致了次优的资源分配模式。我们还通过决策和博弈论框架分析了保护具有异质性价值的多个孤立资产的结果，包括同时和序贯博弈。我们表明，与理性维权者相比，行为维权者过度投资于价值较高的资产。然后，我们提出了不同的基于学习的技术，并调整了两种不同的基于税收的机制，以引导行为决策者做出最佳的安全投资决策。特别是，我们展示了这种学习和机制在四个现实的相互依存系统中的结果。总的来说，我们的研究建立了严格的框架来分析大规模相互依赖的系统和由人类决策者管理的异质孤立的资产的安全，并对在这种情况下出现的安全漏洞提供了新的重要见解。

1. 简介

1.1 问题和动机

今天的网络物理系统（CPS）正日益面临着复杂对手的攻击。这些系统的运营商必须明智地分配他们的（通常是有限的）安全预算，以减少他们管理的系统的安全风险。由于大规模系统由多个相互依赖的子系统组成，由不同的运营商管理，每个运营商负责保护自己的子系统，因此，这个资源分配问题变得更加复杂。这导致了在理解如何更好地保护这些系统方面的重要研究，战略和博弈理论模型由于能够系统地捕捉系统中各实体的决策而受到越来越多的关注[1]-[7]。特别是，在对防御者和攻击者可用的策略和信息的各种假设下，这些设置已经被探讨过了[8]-[10]。

之前的工作已经在决策论和博弈论的背景下考虑了这种安全决策问题[3], [11]。然而，大多数现有的工作都依赖于经典的决策模型，其中所有的防御者和攻击者都被假设为做出完全理性的风险评估和安全决策[3], [12], [13]。另一方面，行为经济学表明，人类始终偏离这些经典的决策模型。最值得注意的是，行为经济学的研究表明，人类对收益、损失和概率的感知是倾斜的、非线性的[14]。特别是，人类通常对低概率的权重过高，对高概率的权重过低，这种权重函数呈反S形，如图2.2所示。许多实证研究（例如，[14]，[15]）已经为这一类行为模型提供了证据。

这些效应与评估这类系统的安全性有关，在这些系统中，实施安全控制的决定不是纯粹由自动算法做出的，而是通过人类的决策，尽管有威胁评估工具的帮助[16]-[18]。在大众媒体[19]-[21]和学术期刊[22]、[23]中，有许多文章讨论了安全决策中人的因素的普遍性，但没有一篇文章阐明了认知偏差对整个系统安全的影响。

本论文通过研究上述人类行为决策偏差对安全资源分配问题的影响，在两个主要的不同环境中弥补了上述差距。我们的第一个目标是探索大规模相互依存系统中的这种影响，在这些系统中，对手经常使用踏脚石攻击，可以通过攻击图的概念来捕获，攻击图代表了攻击者在系统中到达目标的所有可能路径[24]。第二个目标是利用决策和博弈论的设置，探索不同设置（包括防御者和攻击者之间的同时和连续互动）中的行为决策，这些孤立的资产对防御者具有异质性的价值。

本论文的关键信息是：

通过在决策建模中加入非线性概率加权，我们可以预测行为决策偏差对网络系统上安全资源分配的影响，并为减轻这种偏差的负面影响提供指导。

论文还提出了在个人层面（使用学习技术）和社会层面（使用机制设计）加强人类安全资源分配的指导技术，我们探讨了理性决策者和行为决策者在这些指导技术结果上的差异。

接下来，我们将对上述环境和我们在各种环境中的贡献进行概述。

1.2 以攻击图为模型的相互依赖系统中的行为和博弈论安全投资

在这项工作中，我们考虑了这样一种情况：在相互依赖的系统的 "攻击图 "模型中，每个（人类）防御者对成功攻击的概率有误解。我们描述了这种误解对每个防御者的安全投资的影响，其中每个防御者负责防御一个子网络（即一组资产）。此外，每个防御者也可以投资于保护其他防御者的资产，这在攻击者利用网络路径到达某些目标节点的相互依赖的系统中可能是有益的。在对每条边的成功攻击概率的适当假设下，我们建立了每个防御者的感知预期成本的凸性，并证明了这一类博弈中纯策略纳什均衡（PNE）的存在。

我们主要研究了具有这种行为偏差的用户在孤立的情况下以及在博弈论的环境中行动时的安全投资。因此，我们发现了行为决策下安全投资的某些特征，而这些特征在先前工作中考虑的经典决策概念（即预期成本最小化）下是无法预测的[9]。特别是，我们表明，非线性概率加权会导致防御者的投资方式增加他们的资产对攻击的脆弱性。此外，我们还说明了在系统中拥有混合防卫者（具有不同程度的概率加权偏见）的影响，并表明对概率的认识有偏差的防卫者的存在实际上会使系统中的非行为防卫者受益。然后，我们提出了一个新的指标，即行为无政府状态的价格（PoBA），以反映行为决策者所做的均衡投资与集中式（非行为式）社会最优解决方案相比的低效率，并为PoBA提供了严格的界限。

1.3 在行为概率加权下保护具有异质性估值的孤立资产

1.3.1 决策理论分析

与安全领域的战略（或经济）决策有关的开创性工作之一是[25]，它考虑了一个保护单一节点的单一防御者，该节点的脆弱性可以通过对该节点的投资来降低。作者对防御者在这种情况下的投资进行了深入研究。这种关于防御者选择投资以保护资产免受非战略攻击者攻击的决策理论表述已被广泛研究（例如见[9]，[26]-[28]及其中的参考文献）。然而，如上所述，在大多数这些工作中，防御者被建模为完全理性的决策者（也许有某种程度的风险规避[27]），他们选择他们的行动来最大化他们的预期效用。

在这项工作中，我们将前景理论引入一个决策理论安全框架，该框架涉及一个保护具有异质性价值的多种资产的防御者。具体来说，我们考虑一个由许多资产组成的CPS，并假设防御者误解了每个资产成功被破坏的概率。我们描述了这种误解对防御者的安全投资的影响。特别是，我们表明，与正确感知攻击概率的防御者相比，行为概率加权导致防御者将更多的投资转向价值更高的资产。特别是，随着防御者的行为越来越多，拥有正投资的节点数量也会减少。这种投资的转变导致了行为防御者的（真实）预期损失的增加。

1.3.2 多防御者博弈论分析

在这项工作中，我们考虑的是一个共有资源博弈的环境，其中资源发生故障的概率随着资源总投资的减少而减少。该博弈中的参与者需要投资（受预算约束）以保护一组给定的节点免遭失败。每个节点对每个玩家都有一定的价值，同时也有失败的概率，这是玩家对该节点总投资的函数。在这种情况下，我们考虑行为概率加权（相对于失败概率）对投资策略的影响；这种概率加权，即人类以非线性的方式对概率进行加权，已被行为经济学家确认为人类决策的一个共同特征。我们研究了有多个（行为）参与者的博弈论设定，并表明该博弈中存在纯策略纳什均衡，并表明在所有均衡中每个节点上的总投资是唯一的。此外，我们表明，与玩家正确感知失败概率的情况相比，反S型行为概率加权（玩家对低概率加权过高，对高概率加权过低）导致玩家将更多的投资转移到高价值的节点，而对低价值的节点投资不足。特别是，随着玩家的行为越来越多，拥有正投资的节点数量也会减少。另一方面，我们表明，在S型行为概率加权（玩家对低概率加权过低，对高概率加权过高）的情况下，有积极投资的节点数量增加。最后，我们量化了行为水平的异质性对PNE投资的影响，并比较了提高社会成本的不同可能的培训政策。我们通过数字模拟来说明我们的理论结论。

1.3.3 顺序防御者-攻击者博弈分析

与考虑非战略攻击者的防御者决策理论公式相比，博弈理论模型在防御者和攻击者可用战略的各种假设下进行了探索[3], [4], [9]。特别是，在[7]、[29]、[30]中研究了攻击者对防御者的行动作出战略反应的情景。对我们这里的工作特别感兴趣的是论文[30]，它考虑了一个连续的防御者-攻击者框架，并显示了每个参与者的最佳策略。同样，现有工作的一个共同点是假设防守方和进攻方都是按照完全理性决策的经典模型行事。

在这项工作中，我们将前景理论引入到一个涉及一个防御者和一个攻击者的连续博弈理论框架中。具体来说，我们考虑的情况是，（人类）防御者对每个地点的成功攻击概率有误解。我们描述了这种误解对防御者的安全投资和攻击者的决定的影响。与[31]-[33]不同的是，作者考虑了这种概率加权在某些特定类别的没有战略对手的相互依赖的安全博弈中的影响，我们考虑的情况是，防御者将她的投资放在最能保护她的站点上，考虑到战略攻击者选择哪个站点被破坏以最大化防御者的预期损失。

我们首先展示了防御者（在行为概率加权下）的（感知的）最佳防御分配的唯一性。然后，我们描述了概率加权对防御者所做的投资决定的影响；特别是，我们表明，对概率的非线性感知会诱使防御者以增加其被攻击时的损失的方式转移其最佳投资。最后，我们引入了行为概率加权价格（PoBW）的概念，以量化行为防御者的投资对其真实预期损失的无效率。我们提供了PoBW的界限，并提供数字例子来说明上述现象。

1.3.4 同步攻防博弈分析

一类特殊的涉及攻击者和防御者的同时移动博弈（玩家必须同时选择他们的策略，而不先观察对方做了什么）已经在各种情况下被研究。例如，Colonel Blotto博弈[34]是一个有用的框架，用来模拟攻击者和防御者之间在不同的潜在目标（即战场）上分配一定数量的资源。具体来说，[35]提出了一个异质布洛托上校博弈的解决方案，该博弈具有不对称的参与者（即具有不同的资源）和一些可能具有不同价值的战场。虽然Colonel Blotto博弈通常涉及确定性的成功函数（在某个节点上投资较高的玩家赢得该节点），但其他工作研究了每个玩家的获胜概率是每个玩家的投资的概率（和连续）函数的情况[7]。

在这些工作中，按照人类决策的经典博弈理论模型，防御者和攻击者被认为是完全理性的决策者，他们选择他们的行动来最大化他们的预期效用。很少有例外的情况，通过决策理论分析关注概率加权对单个防御者决策的影响（没有战略攻击者）[33]，关注多个防御者对网络的投资（重点是了解网络结构的作用）[31]，或者关注单一目标环境下双方的行为决策[36]。与这些工作不同的是，我们考虑的是在有多个目标的环境中，行为决策的影响，这些目标对参与者（即防御者和攻击者）的价值不同。

在这项工作中，我们将前景理论引入涉及攻击者和防御者的博弈论框架。具体来说，我们考虑一个由许多资产组成的CPS，并假设防御者误解了每个资产的成功妥协的概率。我们首先建立了每个参与者（即攻击者和防御者）的目标函数的凸性，并以此来证明行为多目标安全博弈的纯策略纳什均衡（PNE）的存在。然后，我们证明了该PNE在我们的博弈中的唯一性。然后，我们描述了（理性）玩家的最佳投资策略的特点。然后我们表明，防御者和攻击者更多地投资于高价值资产（在适当的条件下）。随后，我们通过数字模拟表明，对概率的非线性感知可以诱使防御者将更多的投资转移到更有价值的资产上，从而可能增加他们的（真实）预期损失。

1.4 引导行为决策者在相互依赖的系统中进行更好的安全投资

在前面的表述中，我们已经表明，与非行为决策相比，行为决策会导致次优的资源分配。在这项工作中，我们试图引导行为决策人进行更好的安全投资。特别是，我们为相互依赖的系统设计了一种推理和安全投资决策技术。我们提出了不同的基于学习的技术，以指导行为决策者在两种不同的情况下做出最佳的投资决策，每一种情况都代表着防御者是否了解对手的历史（即在前几轮选择的攻击路径）。我们提出的技术增强了已实施的安全策略（在通过优化分配有限的安全资源来减少系统被破坏时的总损失方面）。我们的系统有用于单轮和多轮设置的组件。

我们对N = 145名参与者进行了一项人体研究，他们在两个简单的攻击图中选择防御分配。然后，我们使用五个合成的攻击图来评估我们的系统，这些攻击图代表了现实的相互依赖的系统和通过它们的攻击路径。这些系统是DER.1[17]，（由NESCOR建模），SCADA工业控制系统，使用ICS的NIST指南建模[12]，IEEE 300总线智能电网[37]，电子商务[13]，和VOIP[13]。我们与之前的两个带有攻击图的最佳安全控制解决方案[16]、[38]做了一个基准比较，并与我们的评估相比，量化了损失的低估程度，其中防御者是行为的。在进行分析和获得这些基于行为模型的结果时，我们解决了在相互依赖系统的安全方面的几个特定领域的挑战。这些挑战包括用某些参数来增强攻击图，如边对安全投资的敏感性、基线攻击概率的估计以及我们公式中的防御机制类型。

1.5 利用机制设计加强相互依赖系统的安全资源分配

确保相互依赖的系统安全的另一个目标是最小化所有保卫此类系统的利益相关者的社会成本。在这项工作中，我们考虑了两种不同的基于税收的机制，以引导行为决策者和自私的理性决策者在相互依存的安全博弈中做出最佳投资决定。这种机制使用货币支付/奖励来激励社会最优（SO）安全行为，即那些最小化所有防御者因安全攻击而产生的成本总和。两种基于税收的机制是 "外部性 "机制[39]和Vickrey-Clark-Groves（"VCG"）机制[40]。这些机制通过激励防御者分配其有限的安全资源以最小化系统的社会成本来加强已实施的安全政策。我们展示了一个基本结果，即不存在可靠的基于税收的机制，可以激励社会最优的投资状况，同时保持弱平衡的预算（即中央监管机构不支付自费资金），适用于所有相互依赖的安全博弈实例。

我们在第8.7节中展示了我们的结果与安全经济学文献[40]、[41]中的先前结果之间的区别。我们的结果表明，与单体系统相比，在相互依赖的安全博弈中设计机制更具挑战性。我们还展示了在我们的相互依赖的安全博弈框架中，行为偏差对两个机制的结果的影响。特别是，我们表明，在这种税收机制下，行为维护者与理性维护者相比会支付更多的税收。然后，我们使用四个合成的攻击图来评估我们的发现，这些攻击图代表了现实的相互依赖的系统和通过它们的攻击路径。在进行分析时，我们修改了相互依存的安全博弈的机制公式（第8.5节），并将行为偏差纳入我们的公式中（第8.2节）。

1.6 总结和概要

本论文在两个主要环境中证明了行为偏差（来自前景理论）对安全决策的影响。首先，它提出了新的数学行为安全博弈模型，用于研究由有向攻击图建模的相互依赖系统中的人类决策，并表明行为偏差会导致攻击图边上的次优资源分配模式。其次，它通过决策和博弈论框架，包括同时和顺序博弈，分析了保护具有异质性评价的多个孤立资产的结果。它描述了在这种情况下风险误解对安全投资的影响，并表明与理性防御者相比，行为防御者会过度投资于价值较高的资产。然后，它提供了不同的基于学习的技术，并调整了两种不同的基于税收的机制，以指导行为决策者在上述环境中加强他们的次优安全投资模式，并做出最佳安全投资决策。

1.6.1 论文大纲

本论文的其余部分组织如下。第二章介绍了对相互依赖系统中的行为决策的分析。第三章和第四章分别提供了在风险误解下保护具有异质性估值的多个孤立资产的决策理论分析和博弈论分析。在第五章中，我们提出了在一个具有多个异质估值目标的CPS上，防御者和攻击者之间的顺序博弈设定。第六章展示了行为决策对同时进行的攻击者-防御者博弈的影响。在第七章中，我们提出了两种新的学习算法，以指导行为决策者进行更好的安全投资。在第八章中，我们为我们的相互依赖的安全博弈调整了两种机制设计，以实现社会最优（使系统的社会成本最小化）。第九章是本论文的结论，并提供了下一步和未来的工作。

专知便捷查看