基于多智能体博弈强化学习的无人机智能攻击策略生成模型

如何利用以攻击型无人机（unmanned aerial vehicle，UAV）为代表的新型作战力量增强战斗力，是智能化、无人化战争研究的重点之一。研究了基于多智能体博弈强化学习的无人机智能攻击关键技术，基于马尔可夫随机博弈的基本概念，建立了基于多智能体博弈强化学习的无人机智能攻击策略生成模型，并利用博弈论中“颤抖的手完美”思想提出优化方法，改进了策略模型。仿真实验表明，优化后的算法在原算法基础上有所提升，训练得到的模型可生成多种实时攻击战术，对智能化指挥控制具有较强的现实意义。

伴随着机械化时代的结束和信息化、智能化时代的到来，现代战争战斗力生成模式的发生域由物理域迈向信息域和认知域。在智能化时代，如何通过人工智能技术取得决策优势，加快观察、判断、决策、行动（Observe, Orient, Decide, Act，OODA）循环，使对手陷入OODA死循环，值得深入思考[13]。智能化、无人化作战作为未来战争关注的焦点，迫切需要协同配合、自组织和快速决策[45]。构建无人机智能攻击策略生成模型的重点，主要体现在以下两个方面:

训练空中无人机的寻路和隐蔽能力，在避开敌人的侦察和火力打击的前提下，精准定位目标位置并实施精确打击。
训练空中无人机的协同配合和自组织、自适应能力，在最小化我方损失的原则下完成作战任务。

近年来，在单智能体领域，由深度学习与强化学习结合而产生的Atari游戏和围棋的虚拟玩家均达到了人类顶级玩家的水平。在多智能体领域，基于值函数分解的多智能体深度强化学习算法，如值函数分解法[6]、混合多智能体值分解算法[7]等也在星际争霸游戏中取得了很好的成绩。从单智能体到多智能体，问题的复杂度大大增加，却也更贴近军事需要，因为真实的战场空间存在大量需要协同组织与配合的基础作战单元。由于传统的单智能体强化学习方法只能对单个作战单元进行建模，如果将其直接应用于多智能体系统，即将其他智能体视为环境的一部分，那么将会违反强化学习的基本假设，产生环境不平稳的问题，从而不再适用。相比之下，多智能体强化学习方法在军事对抗问题的建模及训练和辅助决策上更有研究价值。另一方面，军事对抗问题也属于博弈问题，可以利用博弈论中的相关知识对其进行评估和优化。

目前，多智能体博弈强化学习作为多智能体和博弈论的结合体，在解决大规模智能体之间的交互计算困难[8]、学习对手的策略[9]、完成实时策略（real-time strategy，RTS）游戏中的微观管理任务[10]和提升算法的鲁棒性[11]方面均取得了不错的成果。随着研究的深入，越来越多的博弈论方法被用来分析多智能体问题，产生了平均场多智能体强化学习算法[12]、基于对手意识的学习算法[13]和多智能体深度确定性策略梯度算法[14]等多智能体博弈强化学习方法。因此，将多智能体博弈强化学习方法应用于无人机智能攻击策略生成已成为人工智能作战模拟仿真领域的关键技术之一。

目前，多智能体博弈的成功主要来自两个领域的技术组合：深度强化学习和博弈论。前者用于在交互式环境中训练具有特定目标的智能体，但无法直接被应用于多智能体场景[15]；后者为分析多智能体的行为而生，但更多偏向理论研究，算法应用只局限于较小的范围[16]。

强化学习[17]是让智能体以最大化奖励函数为目标，在试错中学习的算法，非常适合解决序贯决策类问题。深度学习[18]是用神经网络从原始输入中提取高级特征的一类机器学习算法。在深度学习普及之前，强化学习需要用人工提取特征来表示复杂博弈的状态信息，神经网络可以作为一个自适应函数近似器，允许强化学习扩展到高维状态空间[19]和续动作空间[20]。深度强化学习是上述两种算法的结合，兼具二者的优点。本文尝试使用多智能体博弈强化学习方法来解决无人机智能攻击策略的生成与优化问题。将无人机智能攻击策略生成问题建模为博弈问题，并尝试将多智能体深度确定性策略梯度算法应用于解决此类问题。

成为VIP会员查看完整内容