基于强化学习的无人机集群对抗策略推演仿真

无人机集群在军事战争、公共安全和商业领域的应用越来越广泛,但在复杂多变的对抗环境下,制定高效的策略仍然是一个挑战。为使无人机集群能够自主学习和适应对抗环境的变化,提高任务执行的效率和成功率,提出一种基于值分解的多智能体强化学习算法框架,在仿真平台模拟不同对抗场景下的无人机集群行为,通过强化学习算法,培养无人机集群在不同情境下做出决策的能力,以实现任务目标的最优化。讨论不同强化学习算法在无人机集群对抗策略中的应用和性能比较。实验结果表明,该算法在多种集群对抗环境下均表现出良好的效果,展现出其在军事无人机集群对抗中的有力支持。

伴随着科学技术的快速发展,现代军事战争的战场环境也产生了剧烈的变化,无人化、智能化、高实时响应、非完全信息博弈等特点也逐渐成为关乎胜负的主导因素。深度学习和强化学习作为人工智能技术的先驱代表, 在军事仿真[1 - 4] 和无人作战[5 - 8]领域取得了突破性进展,表现出了巨大的应用潜力。尽管如此,这些技术在应用于多智能体系统特别是无人机集群时,仍面临许多挑战,如策略协同、信用分配和信息获取的局限性。随着强化学习算法在单智能体方面的不断完善,智能化无人机作战系统在单一无人作战场景上已经逐步具备感知、分析、决策和执行的能力,并在多种场景下均展现出较为强劲的实力[9 - 12] 。 Google DeepMind 公司训练出的 AlphaGo 系列围棋程序,击败了当时顶尖的世界级职业选手[13 - 14] ;其提出的深度 Q 网络,在多个 Atari 游戏中已经成功地超越了人类专业玩家的水平[9] 。但是,强化学习在多智能体领域依旧有着很大的发展空间,其在多无人作战场景方面的协同依旧面临很多问题[15 - 17] 。例如多智能体之间的信用分配问题、单智能体的探索对其他智能体的决策影响、非全局观测信息带来的局部最优问题等[18] 。目前强化学习技术在多无人机协同搜索、路径规划和编队控制等相关领域的研究中已经取得了不俗的成果。文献[19] 提出一种基于深度强化学习的任务动态分配方法,通过在训练过程中使无人机进行实时交互,对任务的优先级和执行时间进行约束来提高任务的总体完成度。文献[20] 提出一种多机协同空战决策流程框架,提高了在多架无人机协同对抗场景下智能体间的协同程度。文献[21] 提出一种基于改进强化学习的多无人机协同对抗算法,通过对训练过程中的经验进行相关处理,并设计合理的奖励函数来达到快速收敛的效果。结合现有的成熟算法研究,可以发现多智能体强化学习在复杂环境下的无人机集群系统下依旧存在一些不足之处。一个是传统策略梯度算法在训练过程中面临稳定性问题,需要调整精细的超参数来实现其良好的性能,二是基于采样方差的影响,策略梯度算法在较为复杂的环境场景中需要探索的次数过多, 导致训练时间长甚至无法收敛的情况产生。本文针对上述问题,聚焦无人机集群的协同作战策略方案,以仿真环境下双方作战单元对抗推演的形式,提出一种基于值分解的多智能体强化学习算法,通过构建仿真环境来验证算法的优势,结果表明该算法有效地改善了多无人机集群的协同控制, 很大程度上提高了推演策略的效率和稳定性[22 - 25] 。