针对传统方法难以适用于动态不确定环境下的大规模协同目标分配问题, 提出一种基于多智能体强化学习的协同目标分配模型及训练方法。通过对相关概念和数学模型的描述, 将协同目标分配转化为多智能体协作问题。聚焦于顶层分配策略的学习, 构建了策略评分模型和策略推理模型, 采用Advantage Actor-Critic算法进行策略优化。仿真实验结果表明, 所提方法能够准确刻画作战单元之间的协同演化内因, 有效地实现了大规模协同目标分配方案的动态生成。

协同目标分配, 决定了兵力运用的科学性和合理性, 是将作战意图落地为作战行动的关键环节[1]。在同一时间或空间范围内, 多个作战单元为完成同一项作战任务或相互之间存在逻辑关系的多个作战任务时, 需从时间、空间和效果等角度考虑, 进行目标或火力的合理分配, 以最大作战效费比和最小作战风险获得最优打击效果。

协同目标分配是一种典型的非线性多项式完全问题, 决策空间随问题规模(即作战单元数目和作战目标数目)增大呈指数级增长, 求解结果的的实时性、准确性和有效性将直接影响军事对抗中能否取得最佳作战效果。在军事运筹领域, 协同目标分配通常被规约为兵力分配、火力分配或武器目标分配(weapon target assignment, WTA)等问题[2-3], 常用求解方法可分为传统规划方法[4]、模拟退火(simulated annealing, SA)算法[5-6]、蚁群优化(ant colony optimization, ACO)算法[7]、粒子群优化(partical swarm optimization, PSO)算法[8-11]、进化算法(evolutionary algorithm, EA)[12-15]和合同网协议(contract net protocol, CNP)[16]。现有研究虽从不同角度对各种算法进行了改进, 并成功应用于不同场景, 但关于动态不确定环境下的协同目标分配研究较少, 且难以保证大规模目标分配问题的求解效率。

在分布式作战自同步理论中[17], 协同关系体现为作战单元“自底向上组织复杂战争的行为”。将作战单元构建为智能体, 协同目标分配问题便转化为多智能体协作(multi-agent cooperation, MAC)问题, 多智能体强化学习(multi-agent reinforcement learning, MARL)[18]在解决类似协作问题上有着广泛应用[19-23]。据此, 通过分析协同目标分配的军事内涵, 构建了基于MARL的协同目标分配模型, 采用局部策略评分和集中式策略推理, 利用Advantage Actor-Critic算法进行策略学习, 以期能够实现简单场景中训练好的模型直接泛化应用到复杂场景, 从而有效实现大规模目标分配。

成为VIP会员查看完整内容
106

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
基于知识图谱的仿真想定智能生成方法
专知会员服务
89+阅读 · 2023年6月4日
战术先验知识启发的多智能体双层强化学习
专知会员服务
97+阅读 · 2023年5月9日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
133+阅读 · 2023年5月4日
基于课程学习的深度强化学习研究综述
专知会员服务
53+阅读 · 2022年11月28日
面向多智能体博弈对抗的对手建模框架
专知会员服务
142+阅读 · 2022年9月28日
「深度分层强化学习DHRL」最新2022研究与进展综述
专知会员服务
92+阅读 · 2022年8月6日
专知会员服务
19+阅读 · 2021年9月28日
专知会员服务
24+阅读 · 2021年6月17日
专知会员服务
40+阅读 · 2021年5月6日
多模态数据的行为识别综述
专知
4+阅读 · 2022年11月30日
「基于课程学习的深度强化学习」研究综述
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
17+阅读 · 2022年7月13日
TKDE 2020 | 面向严格冷启动推荐的属性图神经网络
PaperWeekly
12+阅读 · 2020年12月18日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2012年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
VIP会员
相关VIP内容
基于知识图谱的仿真想定智能生成方法
专知会员服务
89+阅读 · 2023年6月4日
战术先验知识启发的多智能体双层强化学习
专知会员服务
97+阅读 · 2023年5月9日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
133+阅读 · 2023年5月4日
基于课程学习的深度强化学习研究综述
专知会员服务
53+阅读 · 2022年11月28日
面向多智能体博弈对抗的对手建模框架
专知会员服务
142+阅读 · 2022年9月28日
「深度分层强化学习DHRL」最新2022研究与进展综述
专知会员服务
92+阅读 · 2022年8月6日
专知会员服务
19+阅读 · 2021年9月28日
专知会员服务
24+阅读 · 2021年6月17日
专知会员服务
40+阅读 · 2021年5月6日
相关资讯
多模态数据的行为识别综述
专知
4+阅读 · 2022年11月30日
「基于课程学习的深度强化学习」研究综述
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
17+阅读 · 2022年7月13日
TKDE 2020 | 面向严格冷启动推荐的属性图神经网络
PaperWeekly
12+阅读 · 2020年12月18日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员