在高度竞争的空域中，反空防行动对人的生命和稀缺物质资源构成了巨大的风险，因此希望减少人员遭受生命损失的风险。因此，在争夺空中优势的过程中，用一群低成本的无人驾驶系统取代人类驾驶的空中平台是一个备受关注的领域。然而，目前还没有关于蜂群作战的理论或战术的最佳实践。这篇论文记录了在认知智能体的控制下，利用强化学习方法，为无人驾驶飞行器发现反空防卫战术而进行的系统性框架研究。传统上，反空防卫任务的有效性是通过使用具有高数量、低雷达截面、高速度、低高度和/或电子攻击组合的武器来实现。在没有任何这些力量倍增器的情况下，可以利用合作性的蜂群战术来实现任务的有效性。与其他更有约束性的基于规则的游戏相比，这一领域呈现出高度复杂的状态-行动空间，在这些游戏中，人工智能agent已经成功地学习了游戏策略。本研究采取的方法是开发高度语义化的观察和行动功能，将认知agent行为功能与游戏环境对接，通过重复游戏进行训练。对认知agent的观察和行动功能的各种设计进行了开发和分析，开发的框架被用来促进agent的强化学习以及评估任务的有效性。所提出的框架被证明能够产生高效的认知agent，学习支持蜂群的战术行为，使任务效率最大化，并利用传统的优化，而非认知agent无法做到这一点。

第1章导言

本章介绍了空中优势、防空的概念，并讨论了现代空军用来击败现代防空网络的传统和现代方法。然后阐述了研究的主要假设，接着讨论了本论文其他部分的组织。

1.1.问题陈述

1.1.1. 空中优势

美国空军（USAF）的主要任务目标是实现空中优势，作为所有其他联合战斗行动的先导[1]。美国联合部队将空中优势定义为[2] ：

"......一支部队对空中的控制程度，允许其在特定的时间和地点开展行动而不受空中和导弹威胁的禁止性干扰"。

在被防卫的空域实现空中优势所产生的冲突对人员的生命带来了巨大的风险，以及昂贵的物质资源损失的风险。

1.1.2. 进攻性反空袭

压制（SEAD）或摧毁（DEAD）敌方防空是进攻性反空作战，试图通过破坏性（DEAD）或干扰性（SEAD）手段，使敌方地表防空系统失效、被摧毁或暂时退化，以使联合部队能够无争议地进入受控空域。除了针对AD的传感器和武器外，DEAD任务通常还针对高价值的固定地点的地面资产，如[2] 。

1）机场和作战基地

a) 飞机
b) 跑道
c) 空中交通管制
d) 机库
e) 燃料储存
f) 庇护所和人员设施
g) 维修设施

指挥和控制（C2）系统

a) 预警（EW）系统
b) 情报收集系统
c) 通信基础设施

武器

a) 发射设施
b) 储存设施

支持性基础设施

a) 发电和配电
b) 铁路和铁路终端
c) 港口和海运码头

1.1.3. 防御性反空

敌方的防空系统对试图在有争议的空域，对实现空中优势的空降部队提出了实质性的挑战。敌方综合防空系统（IADS）的防卫性反空任务是摧毁、破坏或抵消空中和导弹攻击、情报、监视和侦察收集，或其他未经授权的对防卫空域的渗透。现代IADS已经变得越来越复杂，在组织、复杂性和操作程序方面可以有很大的不同。现代地对空导弹（SAM）系统在射程和能力方面都得到了极大的提高，并对美国部队构成了严重的威胁。远程萨姆导弹通常部署在高价值资产附近，以提供点防御覆盖，同时也有效地拒绝进入广泛的空域。

反坦克元素的分布、分层和相互连接的性质允许采取深度防御战略，允许进行多次交战以增加成功的概率。许多对手采用集中的AD活动的C2，而其他对手可能采用分散的系统，其中多个节点有必要的冗余来指挥部分或整个IADS。数据基础设施包括无线电、固定电话（电缆/光纤）、微波、蜂窝电话、卫星和互联网系统[2]。

图1.1显示了一个概念性的IADS布局，其中几个远程防空导弹（LRS）站点被部署在两个高价值的受保护资产（PA）的前方，以形成一个受保护的正面。LRS站点由两个预警雷达和指挥、控制和通信（C3）站点支持，这些站点提供了对防御空域的综合态势感知。此外，每个PA都有一个LRS站点，提供点状防御。图中的橙色楔形代表了每个LRS的武器交战区（WEZ）。

图1.1: 国际防空系统的概念布局

显然，本例中的防空系统是为了防御预计来自保护前线东南部某处的攻击而布置的。

成功压制敌方的防空系统可以通过多种方式实现。干扰通信系统和传感器可以提供短期的局部压制，如果足够的话，或者作为一种临时措施来实现所需的高阶间接效果。破坏C3或EW资源，或迫使敌方反坦克部队自主行动，有时可以充分降低对友军的威胁程度，以获得所需的空中优势水平。然而，通常情况下，如果一个反坦克基地的自主行动能力继续对友军构成重大威胁，那么它本身就必须成为摧毁目标[3]。

1.2. 无人驾驶飞行器（UAV）蜂群

鉴于IADS的相互联系和分层性质，DEAD任务需要一个作战概念（CONOPS），以解决在整个有争议的空域的不同点上具有不同能力的防御性武器。很少有单一的故障点可供利用。事实上，IADS的设计是随着AD元件由于破坏、性能下降或弹药耗尽而被关闭而优雅地退化。事实上，反坦克部队包含先进的技术武器和为防御性反空袭任务而优化的传感器，并由各级C2的人类决策来支持，这意味着反空袭任务可以以相当难以预测的方式展开。这些因素，再加上人命的高风险和稀缺的物质资源，使得在实现空中优势的冲突中，减少友军人员和高成本空中平台面临的损耗风险是可取的。因此，在争夺空中优势的竞赛中，最好是用低成本的无人系统取代人类操作昂贵的载人空中平台[4] 。

与传统的机载打击包相比，无人机群呈现出一系列独特的特征，使其能够以不同的方式执行DEAD任务。首先，如果蜂群是由大量的单位组成，它可以实现更大的几何多样性。蜂群的规模也允许战术上的多样性。蜂群对损耗也很强大：虽然打击包中单个有人平台的损失可能会导致人的生命损失，但它也经常导致严重的损害。首先，如果蜂群由大量的单位组成，它可以实现更大的几何多样性。蜂群的规模也允许战术上的多样性。蜂群对损耗也很强大：虽然打击包中单个载人平台的损失可能导致人命损失，但它也经常导致任务结果受到严重影响。一个无人机群可以通过替换角色、调整战术和调整目标来适应单个单位的损失。此外，由于蜂群的性质，由大量单位组成的蜂群更能适应不断变化的条件：可用于执行行动的单位数量越多，可用于实现有利解决方案的自由变量数量就越多。

然而，由大量无人机组成的蜂群将很难由人类操作员协调和控制，除非每个人都由人类操作员单独远程驾驶。即使如此，操作者可用的数据的延迟和质量可能不足以完全实现最佳的合作行为，以支持动态DEAD任务。将人类飞行员与远程控制的无人机装置联系起来，大大增加了该装置的成本，因此也增加了整个任务的成本。一个（半）自主的蜂群的一大优势是，生产和运营成本可能远远低于遥控无人机蜂群。因此，至少在某种程度上，无人机群将从某种类型的自主行为中大大受益。

蜂群中的每个无人机都有可能根据自己从环境中观察到的信息以及蜂群中其他成员与它共享的信息，执行自主行动。为无人机群自主性开发行为算法的问题，很自然地被归入多Agent学习领域，特别是合作多Agent学习。文献中已经考虑了几种技术来实现合作式多代理学习：团队学习、混合团队学习和并发学习[5]。基于代理的建模（ABM）是一种通过模拟相互作用的代理来理解系统的一般方法。

无人机群应用于DEAD任务问题的复杂、动态性质，肯定会导致多Agent系统中众所周知的 "涌现的复杂性 "现象。这指的是这样一个概念：随着大量的Agent相互作用，特别是冲突双方的Agent，每个团队的联合行为都会令人吃惊[5]。本研究没有将其视为消极的副作用，而是表明这种现象导致了蜂群Agent行为的新颖性和信息量，特别是由于在DEAD任务领域中还没有关于无人机蜂群作战CONOPS的理论或战术最佳实践。

1.3.假设

除去隐身、电子攻击、远距离武器和严重不对称的数量等昂贵的特征，无人机群能够用来对付IADS的主要武器是它能够在整个有争议的空域中动态地摆出其各种成分，采用的战术主要是调节攻击时机、节奏和几何表现。

本研究的假设是，通过使用ABM，可以通过机器学习（ML）发现无人机群代理行为的新型合作行为，产生一种认知Agent，即

1）在DEAD领域展示任务有效性（ME）。

2）等同于或超过由更多单位组成的 "哑巴"群体的有效性，例如一大排常规巡航导弹的有效性

3）对人类控制的对抗性IADS有效

一旦发现无人机群Agent的行为，显示出对由算法控制的Agent组成的IADS成功执行DEAD任务，将通过实时战略游戏（RTSG）对人类控制的IADS测试相同的蜂群Agent。这将允许对潜在的微妙的蜂群Agent策略进行定性，并评估蜂群Agent适应不同和变化的IADS防御策略的能力。

对行为学习的ABM的一个重要批评是，行为的学习是使用不能代表现实世界效果的模拟，也就是说，如果模拟环境走了太多的捷径或做了简化或不正确的假设，那么学到的行为就不会有现实世界的意义[6]。本研究的一个目标是在无人机DEAD领域开发适用于现实世界的CONOPS，因此对这一批评意见相当重视。为了克服这一潜在的缺陷，ABM学习的模拟环境将采取RTSG的形式。这为无人机群学习行为的结果提供了一个重要的检查，原因有几个。

1）基于物理学的DEAD任务模拟具有很高的保真度