推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

2022 年 11 月 16 日 专知

现代安全威胁的特点是随机的、动态的、部分可观察的和模糊的作战环境。这项研究解决了在这种复杂安全威胁的作战规划、分析和评估中的不确定性决策问题。首先，对不确定性建模、决策和不确定性下的优化的文献进行了回顾，重点是模糊性建模和优化实践方面的最新进展。这一回顾为后续的方法论和应用研究提供了一个框架，并对文献中不确定性下的决策和优化的当代应用进行了全面回顾。接下来，对军事评估的不确定性模型的调查涉及定性和混合方法，以补充文献回顾中讨论的定量模型。这项调查为实践者提供了一个基于研究的指南，以便将定性但严格的不确定性模型应用于实际评估问题。

在对现有文献和实践的回顾之后，本研究开发了一种在推理环境下的不确定性决策的新方法。稳健的序贯推理方法解决了一类普遍的队列问题，其中内部排队系统是不可观察的，出发和到达时间是随机的和部分可观察的。这项工作提高了决策者在不确定环境中分析队列的能力，使用的原则性方法可证明收敛于真实参数值，并具有强大的经验性能。

接下来，这项研究从推理过渡到序贯决策，采用了一种原始的表述和解决方法，用于在动态、部分可观察和模糊的环境中进行稳健的信息收集。该解决方法具有理想的理论凸性和收敛特性。一个计算实验表明，与现有方法相比，文献中的一组经典问题的性能得到了改善。此外，对一个网络安全检测问题的详细应用说明了新的表述和解决方法的功效。

最后，针对动态的、随机的和部分可观察的多Agent环境，提出了解决大规模的、具有不完美信息的广义形式游戏的最佳和近似技术的新应用。这项工作为多领域网络和防空问题的最优和近似公式提供了明确的细节，产生了接近最优的策略，描述了近似解决方案的最优性差距，并分析了结果对关键问题参数的敏感性。此外，对稳健对手利用的扩展包含了有界理性和模型模糊性。稳健的表述同时解决了问题的网络物理性质和对手的不确定性。经验证据表明，当对手以有界理性进行游戏时，稳健方法是有效的。

总的来说，这些当代调查、方法上的进步和新的应用提供了一套数学工具和计算算法，用于解决挑战性环境下不确定性的复杂决策问题。这项研究通过把握技术和实践的现状，以及将现有的算法扩展到模糊和部分可观察的环境，提高了决策和优化的能力。

引言

美国空军未来作战概念（2015a）设想了2035年的挑战性安全环境。敌方可能有能力以达到不成比例的破坏性效果的方式进行完全一体化的多领域行动。考虑到不仅要威慑和应对弹道导弹攻击，而且要威慑和应对综合信息活动和网络渗透的难度增加。这种联合作战的演变所产生的协同效应使得作战艺术和作战科学都必须得到改进。

正如2018年国防战略（Mattis，2018年）所强调的那样，多领域攻击小品中引入的关切延伸到更广泛的安全界。安全环境正经历着快速的技术革新，并变得越来越复杂和不确定。复杂的环境和适应性强的对手对预测未来结果的能力造成了根本的限制，尤其是在战略层面。然而，在许多规划和评估问题中，行动环境是复杂的，但还没有复杂到完全缺乏决策信息的程度。环境也很少被清楚地定义和理解，以至于不确定性可以忽略不计。决策者面对的是一个动态的环境，其特点是有思想的对手和不同程度的不确定性、模糊性和部分可观察性。决策者应该如何应对这样一个具有挑战性的环境？

在快速的技术变革带来安全挑战的同时，它也带来了新的机遇。不断提高的计算能力补充了统计、模拟和优化算法的基础性改进，提高了决策问题的定量方法的能力。运筹学方法和来自应用数学、统计学、计算机科学、机器学习和人工智能的密切相关技术现在可以在实际规模上解决不确定性下的复杂决策问题。虽然一些最重要和最困难的安全问题仍然不在定量算法的范围内，但利用新兴的解决技术来扩大现代运筹学方法可解决的问题类别，是一种战略上的需要。

这些方法的最新进展集中在利用各种复杂环境中的部分知识。很少有操作环境是完全已知或完全未知的情况。相反，由于部分可观察的状态和奖励、模糊的过渡动态和智能对手，决策者会遇到不确定性。利用有关作战环境的部分信息使决策者能够通过接受不确定性和开发对快速发展的环境和对手具有鲁棒性的解决方案来改进决策。这篇论文的重点是解决以静态、动态和多Agent环境中的随机、部分可观察和模糊环境为特征的决策问题。

本学位论文的结构是一系列独立的学术文章，讨论作战规划、分析和评估中不确定性下的决策这一主题。

第二章回顾了不确定性下的决策和优化的文献，重点是模糊性模型和优化实践的最新进展。
第三章对第二章中定量文献的理论回顾进行了补充，对定性的不确定性和军事评估实践的应用进行了调查。第四章、第五章和第六章在第二章和第三章的基础文献的基础上，分别探讨了静态、动态和多Agent环境下的不确定性决策。
第四章开发了一种新的方法，用于对部分可观察的、随机的到达和离开时间进行稳健的队列推理。这个一般的方法适用于任意的队列，但具体的动机是网络安全和恐怖主义的应用。
第五章开发了一种在动态的、部分可观察的和模糊的环境中进行稳健信息收集的新方法，并扩展应用于网络安全检测问题。
第六章介绍了一个新的应用，即利用最优和近似技术解决具有不完善信息的广义形式游戏的多域网络和防空问题。

1.1 总结

特别是第二章，为后面几章的方法论和应用研究提供了理论基础的回顾。决策方面的最新进展是将风险和模糊性纳入决策模型和优化方法中。这些方法实现了各种来自概率论和非概率论基础的不确定性表示，包括传统的概率论、不确定性集、模糊性集、可能性理论、证据理论、模糊度量和不精确概率。不确定性表示法的选择影响了决策模型的可表达性和可操作性。本章调查了最近在决策和优化中表示不确定性的方法，以澄清替代表示法之间的权衡。对稳健和分布稳健的优化进行了调查，并特别关注标准形式的模糊性集合。不确定性和决策模型的应用也被回顾，重点是最近的优化应用。

第三章补充了第二章的定量工作，重点调查了军事评估中的不确定性模型。评估理论为军事行动评估的实践提供了一个严格的基础。政府和工业界的评估人员已经利用评估理论在广泛的领域内提高了评估的有效性。本章重点讨论评价理论与军事评估之间的关系。本章简要地调查了主要的评估方法，重点是将理论模型与实际的、与安全有关的应用联系起来。这些评估方法包括专家导向、方案导向、决策导向和参与导向模式。在这些方法的总体框架内，详细考虑了替代的监测和评估设计，包括描述性设计（如案例研究、横断面、时间序列）、准实验性设计（如中断的时间序列、比较组、案例研究）和实验性设计（如仅后测、前测）。然后，本章讨论了用于分析和报告每种设计方案的不确定性的定量和定性方法，重点是混合方法。在整个章节中，应用实例明确了评价理论和运行评估实践之间的关系。

第四章开发了一种新的稳健队列推断方法。在一些军事和竞争性商业应用中，队列的内部结构和参数是完全不可观察的。此外，到达和离开的时间可能是可观察的，但由于在对抗环境中的测量误差，会有很大的不确定性。本分析使用基于订单的方法估计内部不可观察的、先到先得的G/G/c队列中的服务器数量。这种新方法提供了一个下限，并在概率上收敛到了正确的值。与标准的方差最小化方法相比，基于秩序的方法对小样本的性能有所提高。基于订单的算法对到达和离开时间测量中的噪声具有鲁棒性，而方差最小化方法在有噪声的数据中表现出较差的性能。我们还考虑了对 "后到先得 "的G/G/C队列的扩展。基于顺序的后到先得的方法也提供了一个下限，该下限在概率上收敛到正确的服务器数量。

第五章为部分可观察的马尔科夫决策过程（POMDPs）的稳健解决方案开发了一种新的表述和方法，该过程具有模糊的过渡和信仰奖励。本章介绍了稳健的信念奖励部分可观察马尔可夫决策过程，作为马尔可夫决策过程的一个概括，它允许状态的不确定性、模型的不确定性和依赖信念的奖励。在许多实际应用中，POMDP的过渡和观测参数很难估计。这项研究表明，传统的POMDP求解技术对模型的错误指定非常敏感，特别是在信仰-奖励的设置中。为了应对这一挑战，我们开发了一种稳健的信念奖励算法，它扩展了基于点的价值迭代，同时保留了理想的灵活性和收敛特性。除了基础理论属性外，一项实证调查显示，稳健的求解技术在几个不同的问题类别中提供了对模型错误指定的保护。为了说明解决模型错误指定对信息获取问题的重要性，本章还介绍了稳健的信念-回报POMDP公式在网络安全问题上的应用，它显示了在最坏情况下的性能改进。

第六章介绍了最优和近似广义形式求解技术在信息不完善的综合网络和防空问题上的新应用。新兴的多领域威胁需要一个综合防御战略。本章开发了多领域安全游戏，以解决对国家人口中心的网络-物理综合威胁。这项研究使用零和、广义形式的博弈来模拟物理和网络空间中的攻击者和防御者，借鉴网络安全和弹道导弹防御的文献来告知博弈结构。为了确定最佳的防御者策略，我们开发了一个多领域的安全博弈，并对问题进行了重新表述，以使用一个有效的序列形式的线性程序找到纳什均衡。本章还开发了一个近似的反事实遗憾最小化算法在这个问题上的应用，并描述了最优性差距。此外，这项研究还量化了网络领域中改进的态势感知的价值，并提出了对强大的对手利用的扩展。

1.2 贡献

这部著作中的文献综述、方法论进展和应用，对整个运筹学领域，特别是对军事和安全运筹学实践做出了贡献。关于不确定性下的决策和优化的文献综述（第二章）将关于理论不确定性模型、决策模型和优化模型的不同文献组织成一个连贯的结构，并确定了这三个研究领域之间的关系。此外，对军事评估中的不确定性模型的调查（第三章）为实践者提供了一个基于研究的指南，以便将定性但严格的不确定性模型应用于评估问题，从而对军事行动研究实践做出了贡献。

在这些现有文献的基础上，一种新的稳健队列推断方法通过提高决策者在不确定环境中分析队列的能力，对该领域做出了贡献（第四章）。这种服务器估计方法对一大类一般队列有效，对队列结构的了解有限，到达和离开的样本小而嘈杂。这项研究证明，该方法产生的估计值具有理论上的收敛性和下限保证。它还提出了在广泛的参数设置中与现有方法相比性能提高的经验证据。

延伸序贯决策，一个原始的稳健的信念-回报POMDP公式和一个新开发的解决算法为该领域提供了工具，以解决模型模糊下的一类新的信息收集问题（第五章）。这项研究证明了该求解技术具有理论上的凸性和收敛性，使其与成熟的近似技术系列兼容。它还提出了经验证据，证明与现有方法相比，文献中的一组经典问题和模糊环境下的实际网络安全检测问题的性能有所提高。

最后，在一个多领域的网络和防空问题上，反事实遗憾最小化的应用通过用快速、接近最优的技术解决一个当代的操作问题，为文献做出了贡献（第六章）。这个新的应用提供了该问题的最优和近似公式的明确细节，并描述了多域安全环境下的最优性差距和对关键问题参数的敏感性，这与最近的其他应用有很大不同。它还提出了一个原创的稳健公式，解决了问题的网络物理性质和对抗性的不确定性。经验证据表明，当对手以有界理性进行游戏时，稳健方法是有效的。

除了通过发表调查、方法、应用和结果对文献做出贡献外，本论文还为所有方法提供了开源软件实现，并公布了所有结果的原始数据。这些代码和数据产品都可以在https://github.com/ajkeith，并提供测试、基准测试和文档。