本文介绍了EdgeAgentX,一个集成了联邦学习(FL)、多智能体强化学习(MARL)和对抗防御机制的新颖框架,专为军事通信网络量身定制。如综合仿真所示,EdgeAgentX显著改善了自主决策能力,降低了延迟,提高了吞吐量,并能稳健地抵御对抗性干扰。
在现代军事通信网络中,边缘计算和自主人工智能对于在对抗环境中实现实时、弹性运行变得至关重要。战术边缘常面临连接被拒绝、中断、间歇且受限的状况,这意味着前线部队必须在最小化依赖中心化基础设施的情况下运作。这要求在边缘具备能够本地决策的自主智能体。“自主人工智能”指的是赋予自主决策能力的人工智能系统——本质上就是相互连接的人工智能体,可以在无需持续人工监督的情况下动态运行。在边缘环境中,此类自主人工智能可以改变游戏规则,使作战人员的设备、无人机和传感器能够在运行中协作和适应。
边缘计算将计算和智能推向更靠近数据源的位置,减少了对遥远数据中心的依赖。这带来了延迟降低、可靠性提高,即使云链接中断也能持续运作。对于关键任务的军事应用——从自主无人机群到实时战术决策辅助——即使毫秒级的延迟或短暂的通信中断也可能造成干扰。美国国防部强调,“战术边缘必须具备弹性……能在无人监督时自主执行任务,并能适应变化。”这凸显了能够在动态、对抗条件下独立学习和行动的边缘人工智能体的重要性。
然而,在边缘实现复杂人工智能面临挑战。单个边缘设备的数据和计算能力有限,因此需要联邦学习(FL)方法在众多分布式节点上协作训练鲁棒的人工智能模型。联邦学习允许多方(如士兵设备、车辆或基站)联合学习一个共享模型,而无需共享原始敏感数据,从而保护作战安全性。同时,军事网络中的决策问题天然涉及多个智能体(如多个无线电或自主单位)的交互——这种场景非常适合多智能体强化学习(MARL)。通过在智能体之间交换信息或经验,可以大大加速学习,策略也能更好地处理庞大的状态/动作空间。特别是,像MADDPG(多智能体深度确定性策略梯度)这样的多智能体深度强化学习算法,通过中心化训练和去中心化执行实现智能体间的协调学习,能在复杂环境中产生更稳定和最优的行为。最后,对抗者的存在意味着对抗性人工智能防御至关重要。对手可能试图投毒模型、干扰通信或用欺骗性输入误导人工智能。需要鲁棒的智能体训练和安全聚合机制来确保人工智能体在受攻击时仍然可靠有效。
EdgeAgentX——通过引入一个新颖的三层框架来满足这些需求,该框架集成了联邦学习、多智能体强化学习和对抗防御,用于军事网络中的边缘人工智能。总之,本文的贡献如下:
• 提出了EdgeAgentX,一种三层架构,将大规模联邦学习与设备端智能体智能相结合。该设计使边缘设备网络能够协作学习改进通信性能(吞吐量、时延)的策略,而无需进行中心化数据池化。 • 在框架中整合了多智能体深度强化学习方法(MADDPG),促进异构智能体(如无线电、无人机、传感器)之间的有效学习和协调。MADDPG的中心化训练/去中心化执行范式使智能体能够学习超越独立学习基线的联合策略。 • 开发并集成了对抗性人工智能防御机制以强化该框架。这些机制包括鲁棒的联邦聚合(以减轻模型投毒)、智能体级对抗训练(以抵御输入扰动或干扰)和安全通信协议。这确保了学习到的策略即使在存在恶意行为者或嘈杂环境的情况下也能保持稳定可靠。 • 在一个模拟的军事通信场景中对EdgeAgentX进行了全面的实验评估。评估了关键指标,如端到端时延、网络吞吐量和学习收敛时间。结果表明,EdgeAgentX优于基线方法(独立强化学习、中心化训练以及无MARL的标准联邦学习)——实现了更低的延迟、更高的吞吐量和更快的收敛速度。我们还展示了该框架对抗对抗性干扰的韧性,在模拟攻击条件下性能下降最小。
本文其余部分组织如下。第二节详细描述了提出的EdgeAgentX框架及其三层架构。第三节定义了系统模型和算法方法,包括多智能体环境和学习算法。第四节介绍了我们的实验评估,将EdgeAgentX与基线方法进行比较并讨论了结果。最后,第五节总结了论文并概述了未来工作的方向。
图1. EdgeAgentX的概念架构展示了三层设计——联邦学习协调层(全局层)、多智能体强化学习层(分布式边缘智能层)和对抗防御层(安全与鲁棒层)。