《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

2022 年 7 月 22 日 专知

美国空军（USAF）继续投资研究和开发人工智能技术，通过自主无人驾驶飞行器（AUAVs）产生竞争性攻击行为。多架AUAVs的使用可以作为一种力量倍增器，确保对敌方的空中优势，并消除对作战人员的威胁。我们制定并解决了动态目标到达的多Agent路由问题（MRP-DTA），这是一个随机系统，其中一队AUAVs对一个名义上的对手执行了打击协调和侦察（SCAR）任务。在任务期间发生的动态目标到达为AUAVs团队提供了一个连续的决策过程，我们通过马尔科夫决策过程（MDP）来模拟。状态空间的高维度和连续性质使得经典的动态规划技术在计算上难以实现。为了应对维度的诅咒，我们构建并实施了一个混合近似动态规划（ADP）算法框架，该框架采用了参数化成本函数近似（CFA）和直接前瞻性（DLA）模型。我们利用网状自适应直接搜索（MADS）算法来调整我们的CFA-DLA参数化，并为AUAVs团队产生高质量的攻击策略。为了证明我们算法方法的优点，我们设计了一个实验，在MRP-DTA的多个实例上测试我们的解决方法。我们将超级ADP策略与竞争基准策略进行比较；推荐的ADP策略在测试的20个问题实例中，有19个比重复贪婪的边际启发式基准策略有统计学上的显著改进，在测试的10个问题实例中，有8个比重复顺序定向问题基准策略有统计学上的显著改进。我们表明，高回报目标到达的概率和目标到达的区域是影响结果策略质量的关键问题特征。偏移分析的结果显示，在为我们的CFA-DLA算法选择基础优化模型时，要平衡解决方案的质量和计算工作量的价值。

I. 引言

自主系统和机器人技术的不断发展，为推进和发现有利于美国空军（USAF）的作战技术提供了潜力。美国空军继续面临着科学和技术进步的挑战，因为同行和近邻的地缘政治竞争者对其力量投射的关键组成部分进行竞争（威尔逊，2019；空军部，2021）。美国空军认识到，人工智能、自主系统和机器人等新技术将确保它能在未来打仗并赢得战争（马蒂斯，2018；空军部，2019d）。

友军和敌军已经开始将自主无人飞行器（AUAVs）与部队相互配合，以实现军事目标并保持空中优势。土耳其部队最近在 "春盾行动 "中对叙利亚部队使用了这种自主飞机，表明他们的AUAVs可以在部署载人资产之前积极机动和削弱各种军事目标，包括防空系统、榴弹炮和军事基地（Haider，2019）。美国空军可以从自主飞机的应用中获益，作为高度重复、危险行动的潜在力量倍增器（Cahoon, 2021）。自主飞机已经证明了它们在危险环境中的效用，并且可以在不适合载人飞机的飞行状态（如加速力、高度）下进行机动。运筹学（OR）方法可以应用于自主系统领域，使美国空军在开发未来自主技术、战术和程序方面直接受益，以保持竞争优势。

美国空军寻求保持空中优势，以便在没有敌对作战部队干扰的威胁下开展军事行动。从历史上看，空中优势一直是一个行动或战役成功的必要条件（国防部，2017b）。美国空军参谋长查尔斯-布朗（Charles Brown）将军强调，需要将空中优势本地化并实现联合效应，作为美国安全的一个组成部分（Brown Jr, 2020）。友军作战部队首先努力建立空中优势，因此后续行动的执行不会受到其他敌对部队的干扰（空军部，2019a）。

在建立空中优势后，美国空军必须通过进攻性的攻击行动来保持对战斗的控制，以削弱敌人的动员和反击能力。用来实现这一目标的一个主要任务是空中拦截。美国空军主要将空中拦截定义为一种多方面的努力，以转移、破坏、延迟或摧毁敌人的军事潜力，使其能够有效地对付友军或实现联合部队指挥官（JFC）的目标。空中拦截必须与环境中的许多敌对条件相抗衡，需要及时和准确的情报报告来告知决策者敌人的能力、部署和意图（Meilinger，2014）。美国空军认为反陆作战是用于完成空中拦截的关键任务。

美国空军执行反陆作战，拦截和摧毁分散在行动区的敌方地面目标。JFC将空对地攻击的重点放在敌人的关键目标上，以削弱敌人的能力，并在整个行动区完成一套专门的任务目标（空军部，2020）。美国空军与其他部门一起使用的一套任务，以最大限度地有效摧毁敌人的资产，被称为打击协调和侦察（SCAR）任务。

SCAR任务是一个与反陆作战相关的衍生任务，支持空中拦截任务目标。在SCAR任务中，美国空军收集关于潜在敌方目标的情报、监视和侦察（ISR）信息，指导攻击资产打击目标，探测更多的目标，并为未来的行动提供战损评估（BDA）。与载人资产相比，AUAVs提供了增加飞机续航能力、降低作战人员风险和优越的目标选择策略的潜力，是SCAR任务的一种潜在资产。美国空军采用了一种逻辑结构的目标选择过程，允许JFC进行情报管理。正如Brunson（2007）所介绍的，美国空军完全依靠JFC的目标来确定攻击目标或支持侦察工作的优先次序。情报部队获得ISR报告，并在攻击领域的资产部署之前确定蓄意的目标。我们把攻击领域称为目标所在的二维地面空间和SCAR任务发生的时间领域。目标的分类是基于多种特性：攻击窗口的时间敏感性、破坏的价值和对敌方部队造成的退化（国防部，2017c）。由于这些不同的因素，JFC承认目标之间有不同的优先级别。高回报目标（HPT）是被认为是实现JFC主要目标的必要目标。JFC建立了一个联合综合优先目标清单（JIPTL），明确描述了目标服务顺序。必须了解的是，JIPTL通常是根据每个目标的价值来构建的；然而，目标位置、目标价值和目标地形特征使清单上的目标的优先次序变得复杂，需要进一步仔细研究。除了为HPT提供服务外，SCAR任务的重点是被称为命名兴趣区（NAIs）的目标。NAIs被添加到JIPTL中，以促进未来关于目标位置的情报，并为JFC提供BDA，这可能为未来的攻击任务提供信息。在现实中，随着SCAR任务的进行，目标实时到达（即被识别）是很平常的。

动态目标描述的是在资产部署后确定一个新的目标（空军部，2019c）。尽管动态目标是在所有蓄意目标被优先考虑后确定的，但如果它们符合JFC的目标，它们仍然是可行的目标。由于瞄准过程的灵活性，攻击资产仍然可以为动态目标提供服务；然而，这些动态目标的到来有时会改变JIPTL的执行，从而影响行动的效率。与动态目标的到来相关的随机性代表了我们问题中不确定性的主要来源。虽然资产进入攻击域执行计划中的SCAR任务并大步调整以应对动态目标的到来似乎是最佳选择，但我们相信，通过预测动态目标在攻击域的到来，我们可以开发高质量的多Agent攻击策略，通过采用强化学习技术，这些策略将优于反应性的确定性策略。然而，在联合空域中引入多架攻击飞机需要额外的问题约束来模仿适当的空域控制。

美国空军使用空域控制这一术语来定义在联合攻击领域内运作的多种资产的运用。空域控制是非常动态的，而且是因地制宜的，但是为了优化空域的使用，控制应该适应具有不同技术能力的用户。空域控制的必要性是由威胁程度、可用的监视、导航以及空域用户和控制机构的技术通信能力决定的。这些能力直接告知协调措施的发展（空军部，2019年b），这些措施是消除空域冲突和确保按照（IAW）JFC的目标安全有效地开展行动的必要条件。

这项研究提出了具有动态目标到达的多Agent路由问题（MRP-DTA），重点是在一个给定的攻击域中指挥多个自主攻击Agent。任务目标是在SCAR任务中雇用一队AUAVs为目标服务。AUAV的主要目标是获得最高的总奖励，其中AUAV从服务目标中获得奖励。AUAVs团队必须适应动态目标的到来，并通过不同的通信方案适当地保持空域控制。具体来说，非盟飞行器之间的沟通对于建立一个富有成效的优先攻击目标的团队至关重要。为了最好地表现这种情况，我们使用了适当地表现AUAVs之间通信的随机性和管理的建模技术。

在这项研究中，我们使用马尔科夫决策过程（MDP）框架对MRP-DTA进行建模，并使用近似动态规划（ADP）技术获得了解决方案。MDP框架为定义大量的问题特征提供了一个结构化的表述。MDP框架模拟了现实世界系统中的随机性。然后可以应用精确算法来解决MDP模型，使其达到最佳状态。然而，由于问题的规模很大，这些解决技术对于MRP-DTA来说在计算上是不可行的。该问题的无数状态和结果空间需要一个强大的近似技术，如ADP，以提供高质量的策略，更好地告知决策者在攻击领域中的攻击资产的路由。我们在一个二维的攻击域中表示MRP-DTA。AUAVs小组进入攻击域，利用JIPTL中包含的蓄意目标的知识寻找要摧毁的地面目标。在没有动态目标的情况下，JIPTL能够为每架AUAV确定一条初始的、静态的、最佳的路线。虽然JFC可能要求首先攻击蓄意目标，但我们研究了在给定选定的知识，即攻击领域各部分的动态目标到达的特征时，AUAVs的性能。确定性的攻击策略提出了激励性的研究问题；我们认为，通过利用整个攻击域中动态目标到达的已知概率，这些策略可以得到改进。我们实施了一个设计好的计算实验来测试问题特征的敏感性及其对策略性能的影响。

本文后续是按照必要问题信息的逻辑表述的。第二章对类似的问题类别、类似的建模框架和适用的解决方法进行了深入的文献回顾。第三章明确定义了问题描述，MRP-DTA的MDP模型表述，以及用于解决该模型的ADP求解方法。第四章介绍了该分析的结果、有针对性的分析和收集的见解。最后，第5章提供了扩展这项研究的建议。

专知便捷查看