摘要——由多自主潜航器(AUV)协同实施的水下目标猎杀任务在军事等领域具有重要应用价值。现有研究主要聚焦于设计高效、高成功率的猎杀策略,尤其针对目标的规避能力进行优化。然而实际场景中,目标不仅能够根据观测预测动态调整规避策略,还可能具备通信窃听能力。若猎杀AUV之间的策略交互信息遭截获,目标可据此调整逃脱方案,将显著降低猎杀任务成功率。为此,本文提出隐蔽通信保障的协同目标猎杀框架,在复杂水下环境中实现高效猎杀的同时防御目标窃听。据我们所知,这是首个将智能体间通信保密性纳入猎杀策略设计的研究。针对动态不可测环境中多AUV协同的复杂性,我们进一步提出自适应多智能体扩散策略(AMADP),将扩散模型的强生成能力与多智能体强化学习(MARL)算法相结合。实验表明,AMADP在满足隐蔽性约束条件下,具有更快的收敛速度和更高的猎杀成功率。
关键词——自主潜航器(AUV);协同目标猎杀;隐蔽通信;多智能体强化学习(MARL);扩散模型
协同目标猎杀技术已在军事任务等多个领域得到广泛应用。然而,水下协同猎杀任务面临着目标追踪、障碍规避及编队控制等多重挑战[1],其复杂性引发了学界的广泛关注。 早期研究[2][3]主要针对静止或低速移动目标的捕获问题,这些工作通常假设目标无法获取猎杀者的位置或速度信息。然而,这种假设具有高度理想化特征。实际应用中,AUV往往配备先进的智能感知系统,可通过声呐等传感器探测猎杀者位置并实施动态规避策略。后续研究[4][5]考虑了更现实的场景,假定目标可观测猎杀AUV的位置信息。但事实上,真实环境中的目标不仅具备观测能力,还可能具有通信窃听能力。若猎杀编队内部交换的协同策略、位置等敏感信息遭截获,目标将据此调整规避策略,从而显著影响猎杀成功率。现有研究均未考虑信息泄露对猎杀过程的影响。为此,我们在猎杀框架中引入隐蔽通信技术[6],通过制造传输不确定性防止敌方截获敏感信息,进而提出隐蔽通信保障的协同猎杀框架,在满足通信隐蔽性约束的前提下实现高效协同。 多AUV协同控制是项极具挑战性的任务。基于规则的传统猎杀方法[7][8]需大量参数调校以适应不同水下环境,且普遍缺乏跨场景鲁棒性。相比之下,深度强化学习(DRL)凭借其强大的自主探索能力[9][10],通过与环境持续交互实现行为优化,被证明是有效的解决方案。但DRL方法往往忽略智能体间的交互建模,制约了其在多AUV猎杀等协同任务中的效能。近期研究如[4][11]采用多智能体强化学习(MARL)来优化猎杀编队的联合轨迹,但现有MARL框架主要依赖在线强化学习,存在数据利用率低的缺陷。相较而言,离线强化学习利用预采集数据集进行训练,能显著提升数据效率。为此,我们提出**自适应多智能体扩散策略(AMADP)**算法:通过扩散模型的强大策略生成能力建模AUV轨迹,集成自适应注意力机制动态调整编队,在保持通信隐蔽性的同时提升协同效能。本文的主要贡献包括: • 首次考虑目标的窃听能力,提出隐蔽通信保障的协同猎杀框架 • 设计新型离线MARL算法AMADP,结合扩散模型与自适应注意力机制 • 实验表明AMADP在通信隐蔽约束下,其猎杀成功率与收敛速度均优于当前最优MARL算法