针对目前海上编队防空任务分配综合效益低,实时性较差等问题,提出了一种基于深度强化学习的海上编队防空任务分配方法。考虑来袭目标威胁度和武器数量等因素,从毁伤效能出发,构建任务分配问题优化模型。在此基础上,将问题转换成马尔可夫决策过程,定义深度强化学习求解所需的状态空间,动作空间与奖励函数。使用了两种结构简单的深度强化学习算法DQNReg和DQNClipped对模型进行优化求解,实现较优的任务分配。仿真结果表明,相比于传统的智能优化算法,基于深度强化学习的海上编队防空任务分配方法能够实现综合效益值更高的任务分配,且求解时间更短,证实了所提方法的有效性。

现代空袭目标技战术性能的快速提高给海上 编队协同反导带来了巨大挑战,防空作战形势日趋 严峻。编队间协同目标分配的快速确定和优化,是 提高对空作战能力,保护编队生命力的关键。程明提出一种目标分配方法,基于受限时段资源对舰艇 防空武器进行了合理的调度,得到多目标拦截武器 分配方案[1]。周菁提出的目标分配算法为每个个 体安排最佳的攻击目标,使集群的协同攻击效能最 大[2]。白建保等提出了一种基于命中概率模型的反 舰导弹目标分配方法,完善了相关数学模型[3]。曹 璐提出了基于决策图贝叶斯优化算法的多无人艇 协同目标分配方法,结合约束条件构建了多无人艇 协同目标分配数学模型[4]。孙鹏等研究了基于突发 事件的任务分配,将目标函数设为最小完成时间, 通过贪婪算法进行可执行任务的动态分配,但此研 究忽略了任务截止时间的约束[5]。

上述传统方法虽然快速有效但是理论性不强, 且需要大量的专业知识和试错,无法被广泛使用, 并且这些启发式算法只是针对某一特定环境求取 最优解,面对环境变化时,往往需要重新求解,实时 性差。 而强化学习算法拥有自决策的特点,可以 根据战场状态进行快速响应和调整,但其在解决大 规模问题和维度较高时性能较差,深度强化学习的 出现可以有效解决此难题。MNIH 等提出了 DQN 网络[6],其同时具有强化学习和深度学习的特点, 其有效性在多个领域得到了证实,并不断被更新优 化。朱建文等使用 Q-Learning 算法对导弹的选取和 分配方式进行智能决策[7]。代琪等提出了一种基于 强化学习与深度神经网络的算法,在动态多无人机 任务分配问题的求解中具有良好的性能[8]。黄亭飞 等采用一种基于深度 Q 网络(DQN)的模型对无人 机动态任务分配问题进行了求解[9]。丁振林等提出 一种基于强化学习与深度神经网络的动态目标分 配算法,火力拦截成功率得到明显的提升[10]。龙腾 等提出了一种基于神经网络的防空武器目标智能 分配方法,能得到相对最优的分配方案[11]。相关研 究虽然在一定程度上弥补了传统算法的不足,但缺 乏对实际战场环境下的编队协同防空任务分配数 学模型的适应性改进,综合效益值仍有上升空间。 本文在现有研究的基础上,建立和完善相关数 学优化模型,提出了一种基于深度强化学习的海上 编队协同防空任务分配方法,利用两种结构简单的 深度强化学习算法对模型求解,进行任务分配的决 策,可在时间成本较低的情况下实现较高的任务分 配综合效益值。

成为VIP会员查看完整内容
84

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
基于多智能体强化学习的协同目标分配
专知会员服务
127+阅读 · 2023年9月5日
基于态势演化博弈的无人机集群动态攻防
专知会员服务
95+阅读 · 2023年9月3日
深度强化学习的无人作战飞机空战机动决策
专知会员服务
114+阅读 · 2023年5月22日
战术先验知识启发的多智能体双层强化学习
专知会员服务
109+阅读 · 2023年5月9日
陆战对抗中的智能体博弈策略生成方法
专知会员服务
96+阅读 · 2023年5月7日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
151+阅读 · 2023年5月4日
基于深度强化学习的对手建模方法研究综述
专知会员服务
82+阅读 · 2023年4月17日
单兵装备人机工效知识图谱构建技术
专知会员服务
60+阅读 · 2023年4月12日
基于深度强化学习的作战辅助决策研究
专知会员服务
164+阅读 · 2022年6月8日
专知会员服务
16+阅读 · 2021年6月6日
单兵装备人机工效知识图谱构建技术
专知
4+阅读 · 2023年4月12日
【硬核书】多无人机鲁棒编队控制,145页pdf
面向多智能体博弈对抗的对手建模框架
专知
12+阅读 · 2022年9月28日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
雷达海面目标识别技术研究进展
科技导报
20+阅读 · 2017年11月13日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2023年9月28日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
VIP会员
相关VIP内容
基于多智能体强化学习的协同目标分配
专知会员服务
127+阅读 · 2023年9月5日
基于态势演化博弈的无人机集群动态攻防
专知会员服务
95+阅读 · 2023年9月3日
深度强化学习的无人作战飞机空战机动决策
专知会员服务
114+阅读 · 2023年5月22日
战术先验知识启发的多智能体双层强化学习
专知会员服务
109+阅读 · 2023年5月9日
陆战对抗中的智能体博弈策略生成方法
专知会员服务
96+阅读 · 2023年5月7日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
151+阅读 · 2023年5月4日
基于深度强化学习的对手建模方法研究综述
专知会员服务
82+阅读 · 2023年4月17日
单兵装备人机工效知识图谱构建技术
专知会员服务
60+阅读 · 2023年4月12日
基于深度强化学习的作战辅助决策研究
专知会员服务
164+阅读 · 2022年6月8日
专知会员服务
16+阅读 · 2021年6月6日
相关资讯
单兵装备人机工效知识图谱构建技术
专知
4+阅读 · 2023年4月12日
【硬核书】多无人机鲁棒编队控制,145页pdf
面向多智能体博弈对抗的对手建模框架
专知
12+阅读 · 2022年9月28日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
雷达海面目标识别技术研究进展
科技导报
20+阅读 · 2017年11月13日
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员