《高超音速攻击中武器与目标分配的深度强化学习》

我们利用深度强化学习（RL）来优化针对多目标的多车高超音速打击的武器与目标分配（WTA）策略。目标是在每一集中最大化被摧毁目标的总价值。每个随机生成的事件都会改变高超音速打击武器（HSW）和目标的数量和初始条件、目标的价值分布以及 HSW 被拦截的概率。我们将此 WTA 策略的性能与使用非线性整数编程（NLIP）推导出的基准 WTA 策略的性能进行了比较，发现 RL WTA 策略的性能接近最优，计算速度提高了 1000 倍，允许实时操作，有利于任务终局的自主决策。

对对手实施有效自主高超音速打击的能力有可能改变我军与强大对手近距离作战时的力量平衡，从而大大扩展我军的防御纵深。与速度较慢的导弹相比，高超音速武器的优势在于既能缩短打击的反应时间，又更难拦截。通过助推滑翔高超音速打击武器（HSW）或在压低轨道上发射的机动弹道重返大气层飞行器（MBRV），可实现在距离战区较远的地方部署武器的最快反应时间。用一枚火箭发射多枚高超音速打击武器或机动弹道重返大气层飞行器（MBRV），可以使这两种方法更加经济，这与我们的核威慑方法类似。从战略轰炸机上发射高超音速巡航导弹的反应时间较慢，但可能更经济。在下文中，高超音速巡航导弹指的是能够遵循非弹道轨迹的可操纵高超音速飞行器，而高超音速导弹指的是在压低的弹道轨迹上发射但能够在末端任务阶段进行机动的高超音速飞行器。在这两种情况下，我们都假定高超声速飞行器具有目标识别和成像能力，可对选定目标进行相对导航和制导。

要实现自主高超音速打击，需要解决多个问题。首先，为了实现较小的失误距离（< 5 米）并估计潜在目标的价值，高超声速武器需要在高超声速飞行状态下对目标进行成像。雷达罩材料必须既对雷达透明，又能承受低空高超声速飞行的高温和高压，而且极高的热量可能会电离边界层并产生干扰。假定目标可以成像，另一个问题（我们将在本文中逐步解决）是，关于敌方机动部队的确切位置和组成的实时信息可能有限，这就要求在完全自主的情况下实施有效的高超音速打击（而不是预先计算目标计划）。其他问题包括飞行器之间的通信、能够满足加热速率和载荷约束的实时制导（在 II.B 中简要讨论）以及稳健的自适应飞行控制[1, 2]。

为了最大限度地提高打击效果（我们将其量化为摧毁目标的总价值），需要 HSW 之间进行实时、自主的合作。使打击效果最大化的一种方法是将多智能体问题表述为武器到目标分配（WTA）问题，该问题既要考虑潜在目标的价值，又要考虑特定 HSW 能在不被拦截的情况下到达目标的概率。考虑到之前提出的其他问题都能得到解决，WTA 将对生存到末端任务阶段的那部分 HSW 的任务效率产生重大影响；末端任务阶段，即飞行器可以用传感器对目标进行成像的阶段。WTA 问题本质上是一个非线性整数编程（NLIP）问题[3]，为每个目标分配一定数量的 HSW，目标是最大化被摧毁目标的总价值。虽然我们可以在 NLIP 框架内制定 WTA 问题，但我们后来的研究表明，在高超音速打击场景中，计算时间（即使在高性能计算机上）太慢，无法进行实时操作，因为机载传感器的射程限制导致终端阶段（HSW 可以对目标进行成像，从而实现导航和制导）持续 8 到 16 秒。此外，NLIP 求解器会因大量 HSW 和目标而耗尽内存。因此，需要一种可实时计算并可扩展到大量 HSW 和目标的 WTA 策略。

以往关于 WTA 问题的研究包括 [4]，该文概述了解决该问题的不同方法。在文献[5]中，作者讨论了一个有多个目标、防御者和导弹的场景（与本文讨论的场景类似），并使用了一种邻接系统表示法来评估将武器分配给目标的特定方案的优劣。然而，计算大约需要一个小时，因此不适合高超音速攻击的实时实施。文献[6]介绍了一种 WTA 求解器，该求解器使用修改过的成本函数来确保武器同时到达目标，但没有考虑目标的防御措施，也没有与最优解进行比较，而且对于高超音速打击应用来说计算成本可能过高。在文献[7]中，作者比较了不同的成本函数和优化算法，同时考虑了武器损耗和目标可行性。最后，在文献[8]中，作者使用强化学习来解决防御应用中的静态 WTA 问题。结果表明，他们的 WTA 策略性能超过了非最佳基准，但尽管该策略可以泛化到不同数量的目标，却无法泛化到不同数量的武器。

在本手稿中，我们展示了深度强化学习（RL）可用于学习有效的 WTA 策略，该策略可实时计算（几毫秒）。这为动态 WTA 提供了可能性，即在终端阶段定期更新 WTA。例如，如果分配给高价值目标的 HSW 在交战早期被拦截，那么分配给低价值目标的 HSW 可能有一条通往高价值目标的可行轨迹，并可转向替换被摧毁的 HSW。我们对 WTA 采用 RL 方法的另一个优势是，计算时间与 HSW 和目标数量近似线性缩放。在之前的工作[2, 9-16]中，我们已经证明 RL 和元强化学习都能成功应用于航空航天制导、导航和控制问题。据我们所知，这项工作是首次将 RL 应用于 WTA 问题，它使用了卷积网络（CNN）[17] 前端，将性能与最优基准进行了比较，解决了高超音速打击应用问题，并且兼容不同数量的 HSW 和目标。本文的其余部分安排如下。第二节阐述了 WTA 问题，第三节介绍了开发 NLIP 基准 WTA 和 RL WTA 所使用的方法，第四节比较了 NLIP WTA、RL WTA 和快速运行的简单启发式 WTA 的性能。第六节给出了结论和未来工作。

成为VIP会员查看完整内容