本研究提出一种针对动态武器目标分配(DWTA)问题的强化学习(RL)框架,该组合优化问题具有军事应用背景。动态武器目标分配是静态武器目标分配问题(WTA)的扩展,通过引入时间相关要素以模拟战争的动态特性。传统WTA解决方法包括简化模型、精确算法和启发式方法,但这些方法面临可扩展性与计算复杂性挑战。本研究提出包含时间阶段的DWTA数学模型,支持多阶段战略规划。该模型被构建为带有约束条件的非线性整数规划问题,确保武器分配方案在时间维度上的可行性。为应对大规模DWTA的计算挑战,论文采用深度强化学习(DRL)算法——特别是深度Q网络(DQN)与行动者-评论家(AC)算法——来学习高效的武器分配策略。所提出的强化学习框架通过多种问题场景验证,证明其能在合理推理时间内提供可行解决方案,适用于时效性要求高的应用场景。结果显示,强化学习方法在约束编程精确算法的对比中表现更优,且随着问题规模扩大优势愈发显著,凸显了其在DWTA问题中实际应用的潜力。

武器目标分配(WTA)属于组合优化问题(COP),其目标是通过战略性分配武器至目标以最大化对敌毁伤效果。随着新型武器系统的发展及其使用复杂性的提升,WTA的重要性日益凸显,凸显出对高效算法管理多样化武器的迫切需求(Kline等人,2019a)。然而,Lloyd与Witsenhausen(1986)证明WTA问题属于NP完全问题,表明不存在已知的多项式时间算法。这一复杂性导致计算量随问题规模扩大或条件复杂化而急剧增加。

WTA问题可分为静态与动态两类。动态武器目标分配(DWTA)考虑武器使用的时间依赖性(Kline等人,2019a),而静态武器目标分配(SWTA)被视为原始WTA问题,也是DWTA在时间阶段数为一时的一种特例。本研究通过引入多时间阶段扩展原始WTA问题,形成DWTA框架。这一改进使得可用资产可被战略性地分配,从而随时间推移达成理想的终局状态。它反映了战场场景中决策的动态性——每次交战的成果将影响后续决策。有效的武器-目标分配规划需适应这种动态环境。具体而言,必须考虑武器的可用性限制,因为并非所有武器均可无限使用,它们可能需要在下次交战前补充弹药、人员或燃料。

因此,本研究中提出的DWTA模型包含每次武器分配后的准备时间。该方法通过强调周密规划与资源管理优化决策流程,确保武器分配在考虑后续交战需求的前提下实现高效配置。

本研究采用强化学习(RL)解决DWTA问题。自Bello等人(2016)提出以来,RL已成为应对组合优化问题的前沿方法。与监督学习不同,RL无需标记数据进行训练,而是通过基于奖励的学习机制实现优化,这使其特别适用于组合优化问题。具体而言,本文对比了采用深度强化学习(DRL)算法的模型。DRL在缺乏真实数据或获取成本高昂的大规模组合优化问题中表现优异,因其可利用神经网络等近似函数并从奖励信号中学习。DRL模型可通过学习参数高效解决问题,无需从零开始求解每个问题。此外,由于学习基于仿真器生成的奖励,DRL能适应问题条件变化而无需重构数学模型。

本研究实施了两类代表性DRL方法:深度Q网络(DQN)与行动者-评论家(AC)算法。DQN是基于价值的算法,旨在近似特定状态下采取行动的预期奖励,通过最大化该价值学习最优行动策略。相比之下,AC算法结合了基于策略与基于价值的方法,通过"行动者"直接学习特定状态下的最优行动,而"评论家"评估行动者决策的有效性。本研究通过对比同一DWTA场景下采用相同训练方法的DQN与AC算法性能,旨在分析不同算法的结果差异。该方法有助于深入理解各类DRL算法在不同DWTA配置下的表现差异。

论文后续结构安排如下:第二章综述前人研究并阐明本研究与前人工作的差异;第三章定义DWTA框架;第四章阐述方法论;第五章展示实验方法与结果;第六章为全文结论。

成为VIP会员查看完整内容
31

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《强化学习在战斗识别中的应用》76页
专知会员服务
26+阅读 · 1月12日
《武器目标分配问题的合作控制方法》119页
专知会员服务
66+阅读 · 2024年10月14日
《有限时间范围鲁棒性在导弹交战中的应用》165页
专知会员服务
34+阅读 · 2024年4月8日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
57+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
50+阅读 · 2011年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
445+阅读 · 2023年3月31日
Arxiv
75+阅读 · 2023年3月26日
Arxiv
23+阅读 · 2023年3月17日
Arxiv
26+阅读 · 2020年2月21日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
57+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
50+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员