《基于强化学习的有人-无人飞机编队任务规划：敌方防空压制（SEAD）任务》最新论文

本研究探讨了无人驾驶飞行器（UAV）与有人驾驶飞机合作进行集中任务规划的发展情况。我们采用经过近端策略优化（PPO）训练的单一智能体来模拟敌方防空压制（SEAD）场景。我们的目标是掌握最佳任务策略。我们的模型在各种环境条件下进行了测试，在 100 次测试中，消除敌方防御的成功率达到 78%。我们的模型所取得的巨大成功强调了它在未来战争场景中的应用潜力，代表了空战和强化学习应用领域的重大进展。

方法

集中式任务规划架构

集中式任务规划架构是指一种先进的技术架构，能够在复杂多变的作战场景中高效协调和管理无人机。该架构从各种信息来源收集数据，实时评估局势，并规划和执行最佳战略，以最大限度地提高整个任务的成功潜力。

该架构的主要组成部分如下：

战斗信息管理：该组件持续监控当前的战斗态势并跟踪信息，以提供实时战场情报。信息来源多种多样，包括各种传感器、传感器网络和人工观察，从而能够深入了解动态复杂的作战环境。这相当于强化学习中收集环境信息的过程，为有效的学习过程提供了第一步。
战斗状态（观察）：在这一阶段，战场信息被提供给智能体。在战场上收集到的各种信息会被实时处理，并传递给强化学习智能体。这样，智能体就能通过综合战场态势感知了解当前形势，预测未来的可能性，并决定下一步行动。

3）任务规划器（智能体）：作为中心的核心要素，这个基于强化学习的智能体根据传入的实时作战态势数据做出最优行动。这一决策过程由一个预训练的强化学习模型执行，该模型学习如何在复杂环境中实现任务目标。

指挥官：最后，智能体的决策将交由指挥官执行。智能体决定的行动将作为指令传递给实际的无人机，从而实现移动、目标探测和攻击等具体任务。

因此，集中任务规划架构实现了从各种信息源收集和处理数据、规划和调整无人机行动以适应实时战场条件的战略。这就实现了实时战略决策和快速反应，提高了整体作战效率和生存能力。

强化学习环境的构建

我们为 MUM-T 问题开发了一个量身定制的强化学习环境。在这个环境中，我们部署了一架战斗机无人机、一个干扰器和一个防空导弹系统，每个系统都有预定义的攻击范围和干扰距离。任务的主要目标是协同参与干扰行动，使目标防空导弹系统失效，随后通过操纵战斗机无人机将其消灭。任务的成功完成取决于是否到达指定的目标点。

在无人机任务规划的背景下，我们为 MUM-T 构建了一个定制的强化学习环境。在 MUM-T 环境中，我们部署了一架战斗机无人机、一个干扰器和防空导弹系统，每个系统都有明确的攻击范围和干扰距离。任务的最终目标是与干扰机进行合作干扰，使防空导弹无法攻击，随后通过操纵战斗机无人机摧毁防空导弹。当无人机到达最终目的地（称为 "目标点"）时，即成功完成任务。

为了开发环境，我们使用了 Gym 库，这是一个用于强化学习环境的开源框架。无人飞行器可以移动的空间用二维网格表示。由于无人机的航向和速度等低层次控制方面的问题假定由 AFRL ACL 5 级自主处理，因此集中式任务规划框架侧重于负责规划任务相关值（即航点和任务点）的高层次控制，这些值基于多架无人机的信息和战场状态。为促进学习过程，我们将任务空间离散化为 30x30 的网格，共由 900 个单元组成。

每个无人机的行动空间被定义为离散的多行动空间，使每个智能体能够独立选择行动。战斗机无人机和干扰机有五种可能的行动：向左、向右、向上、向下和攻击。行动空间的离散化简化了学习和控制[图 5、6]。

在每个时间步长内，智能体根据其选择的行动在网格环境中移动。我们施加了边界条件（惩罚），以防止无人机在网格边界外移动。此外，我们还通过检测碰撞并分配相应的惩罚来处理战斗机和干扰机之间的潜在碰撞。为了解决无人飞行器之间的协作问题，我们为智能体之间的特定功能和互动建立了模型。当干扰机进行干扰时，如果萨母不在攻击范围内，则会产生惩罚。但是，如果防空导弹在攻击范围内，干扰成功则会获得奖励，使防空导弹无法使用。战斗机总共有五次攻击机会，攻击失败（当防空导弹不在攻击范围内时）会导致失去一次攻击机会并受到惩罚。另一方面，如果防空导弹在规定的攻击范围内，防空导弹就会失效，并获得奖励。重要的是，如果战斗机没有进行干扰，则无法攻击，因为战斗机的攻击范围小于干扰距离。

成为VIP会员查看完整内容