如何利用以攻击型无人机(unmanned aerial vehicle,UAV)为代表的新型作战力量增强战斗力,是智能化、无人化战争研究的重点之一。研究了基于多智能体博弈强化学习的无人机智能攻击关键技术,基于马尔可夫随机博弈的基本概念,建立了基于多智能体博弈强化学习的无人机智能攻击策略生成模型,并利用博弈论中“颤抖的手完美”思想提出优化方法,改进了策略模型。仿真实验表明,优化后的算法在原算法基础上有所提升,训练得到的模型可生成多种实时攻击战术,对智能化指挥控制具有较强的现实意义。

伴随着机械化时代的结束和信息化、智能化时代的到来,现代战争战斗力生成模式的发生域由物理域迈向信息域和认知域。在智能化时代,如何通过人工智能技术取得决策优势,加快观察、判断、决策、行动(Observe, Orient, Decide, Act,OODA)循环,使对手陷入OODA死循环,值得深入思考[13]。 智能化、无人化作战作为未来战争关注的焦点,迫切需要协同配合、自组织和快速决策[45]。构建无人机智能攻击策略生成模型的重点,主要体现在以下两个方面:

  • 训练空中无人机的寻路和隐蔽能力,在避开敌人的侦察和火力打击的前提下,精准定位目标位置并实施精确打击。
  • 训练空中无人机的协同配合和自组织、自适应能力,在最小化我方损失的原则下完成作战任务。

近年来,在单智能体领域,由深度学习与强化学习结合而产生的Atari游戏和围棋的虚拟玩家均达到了人类顶级玩家的水平。在多智能体领域,基于值函数分解的多智能体深度强化学习算法,如值函数分解法[6]、混合多智能体值分解算法[7]等也在星际争霸游戏中取得了很好的成绩。从单智能体到多智能体,问题的复杂度大大增加,却也更贴近军事需要,因为真实的战场空间存在大量需要协同组织与配合的基础作战单元。由于传统的单智能体强化学习方法只能对单个作战单元进行建模,如果将其直接应用于多智能体系统,即将其他智能体视为环境的一部分,那么将会违反强化学习的基本假设,产生环境不平稳的问题,从而不再适用。相比之下,多智能体强化学习方法在军事对抗问题的建模及训练和辅助决策上更有研究价值。另一方面,军事对抗问题也属于博弈问题,可以利用博弈论中的相关知识对其进行评估和优化。

目前,多智能体博弈强化学习作为多智能体和博弈论的结合体,在解决大规模智能体之间的交互计算困难[8]、学习对手的策略[9]、完成实时策略(real-time strategy,RTS)游戏中的微观管理任务[10]和提升算法的鲁棒性[11]方面均取得了不错的成果。随着研究的深入,越来越多的博弈论方法被用来分析多智能体问题,产生了平均场多智能体强化学习算法[12]、基于对手意识的学习算法[13]和多智能体深度确定性策略梯度算法[14]等多智能体博弈强化学习方法。因此,将多智能体博弈强化学习方法应用于无人机智能攻击策略生成已成为人工智能作战模拟仿真领域的关键技术之一。

目前,多智能体博弈的成功主要来自两个领域的技术组合:深度强化学习和博弈论。前者用于在交互式环境中训练具有特定目标的智能体,但无法直接被应用于多智能体场景[15];后者为分析多智能体的行为而生,但更多偏向理论研究,算法应用只局限于较小的范围[16]。

强化学习[17]是让智能体以最大化奖励函数为目标,在试错中学习的算法,非常适合解决序贯决策类问题。深度学习[18]是用神经网络从原始输入中提取高级特征的一类机器学习算法。在深度学习普及之前,强化学习需要用人工提取特征来表示复杂博弈的状态信息,神经网络可以作为一个自适应函数近似器,允许强化学习扩展到高维状态空间[19]和续动作空间[20]。深度强化学习是上述两种算法的结合,兼具二者的优点。 本文尝试使用多智能体博弈强化学习方法来解决无人机智能攻击策略的生成与优化问题。将无人机智能攻击策略生成问题建模为博弈问题,并尝试将多智能体深度确定性策略梯度算法应用于解决此类问题。

成为VIP会员查看完整内容
100

相关内容

无人集群协同控制策略及军事应用
专知会员服务
101+阅读 · 2023年11月13日
基于深度强化学习算法的无人机智能规避决策
专知会员服务
80+阅读 · 2023年6月27日
深度强化学习的无人作战飞机空战机动决策
专知会员服务
111+阅读 · 2023年5月22日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
146+阅读 · 2023年5月4日
基于深度学习的水下图像目标检测综述
专知会员服务
45+阅读 · 2023年4月29日
基于深度强化学习的对手建模方法研究综述
专知会员服务
81+阅读 · 2023年4月17日
面向任务的无人机集群自主决策技术
专知会员服务
175+阅读 · 2023年4月15日
自然语言生成技术及其在军事领域应用
专知会员服务
80+阅读 · 2023年1月6日
专知会员服务
47+阅读 · 2021年4月15日
专知会员服务
91+阅读 · 2021年1月17日
单兵装备人机工效知识图谱构建技术
专知
4+阅读 · 2023年4月12日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
无人机集群、蜂群与蜂群算法
无人机
89+阅读 · 2018年9月25日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
34+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
22+阅读 · 2011年12月31日
国家自然科学基金
45+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年11月30日
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
26+阅读 · 2020年2月21日
VIP会员
相关VIP内容
无人集群协同控制策略及军事应用
专知会员服务
101+阅读 · 2023年11月13日
基于深度强化学习算法的无人机智能规避决策
专知会员服务
80+阅读 · 2023年6月27日
深度强化学习的无人作战飞机空战机动决策
专知会员服务
111+阅读 · 2023年5月22日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
146+阅读 · 2023年5月4日
基于深度学习的水下图像目标检测综述
专知会员服务
45+阅读 · 2023年4月29日
基于深度强化学习的对手建模方法研究综述
专知会员服务
81+阅读 · 2023年4月17日
面向任务的无人机集群自主决策技术
专知会员服务
175+阅读 · 2023年4月15日
自然语言生成技术及其在军事领域应用
专知会员服务
80+阅读 · 2023年1月6日
专知会员服务
47+阅读 · 2021年4月15日
专知会员服务
91+阅读 · 2021年1月17日
相关资讯
相关基金
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
34+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
22+阅读 · 2011年12月31日
国家自然科学基金
45+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员