无人机集群在军事战争、公共安全和商业领域的应用越来越广泛,但在复杂多变的对抗环境下,制定高效的策略仍然是一个挑战。为使无人机集群能够自主学习和适应对抗环境的变化,提高任务执行的效率和成功率,提出一种基于值分解的多智能体强化学习算法框架,在仿真平台模拟不同对抗场景下的无人机集群行为,通过强化学习算法,培养无人机集群在不同情境下做出决策的能力,以实现任务目标的最优化。讨论不同强化学习算法在无人机集群对抗策略中的应用和性能比较。实验结果表明,该算法在多种集群对抗环境下均表现出良好的效果,展现出其在军事无人机集群对抗中的有力支持。
伴随着科学技术的快速发展,现代军事战争的 战场环境也产生了剧烈的变化,无人化、智能化、高 实时响应、非完全信息博弈等特点也逐渐成为关乎 胜负的主导因素。 深度学习和强化学习作为人工智 能技 术 的 先 驱 代 表, 在 军 事 仿 真[1 - 4] 和 无 人 作 战[5 - 8]领域取得了突破性进展,表现出了巨大的应 用潜力。 尽管如此,这些技术在应用于多智能体系 统特别是无人机集群时,仍面临许多挑战,如策略协 同、信用分配和信息获取的局限性。 随着强化学习算法在单智能体方面的不断完 善,智能化无人机作战系统在单一无人作战场景上 已经逐步具备感知、分析、决策和执行的能力,并在 多种场景下均展现出较为强劲的实力[9 - 12] 。 Google DeepMind 公司训练出的 AlphaGo 系列围棋程序,击 败了当时顶尖的世界级职业选手[13 - 14] ;其提出的深 度 Q 网络,在多个 Atari 游戏中已经成功地超越了 人类专业玩家的水平[9] 。 但是,强化学习在多智能 体领域依旧有着很大的发展空间,其在多无人作战 场景方面的协同依旧面临很多问题[15 - 17] 。 例如多 智能体之间的信用分配问题、单智能体的探索对其 他智能体的决策影响、非全局观测信息带来的局部 最优问题等[18] 。 目前强化学习技术在多无人机协同搜索、路径 规划和编队控制等相关领域的研究中已经取得了不 俗的成果。 文献[19] 提出一种基于深度强化学习 的任务动态分配方法,通过在训练过程中使无人机 进行实时交互,对任务的优先级和执行时间进行约 束来提高任务的总体完成度。 文献[20] 提出一种 多机协同空战决策流程框架,提高了在多架无人机 协同对抗场景下智能体间的协同程度。 文献[21] 提出一种基于改进强化学习的多无人机协同对抗算 法,通过对训练过程中的经验进行相关处理,并设计 合理的奖励函数来达到快速收敛的效果。 结合现有的成熟算法研究,可以发现多智能 体强化学习在复杂环境下的无人机集群系统下依 旧存在一些不足之处。 一个是传统策略梯度算法 在训练过程中面临稳定性问题,需要调整精细的 超参数来实现其良好的性能,二是基于采样方差 的影响,策略梯度算法在较为复杂的环境场景中 需要探索的次数过多, 导致训练时间长甚至无法 收敛的情况产生。 本文针对上述问题,聚焦无人机集群的协同作 战策略方案,以仿真环境下双方作战单元对抗推演 的形式,提出一种基于值分解的多智能体强化学习 算法,通过构建仿真环境来验证算法的优势,结果表 明该算法有效地改善了多无人机集群的协同控制, 很大程度上提高了推演策略的效率和稳定性[22 - 25] 。