基于多智能体强化学习的协同目标分配 - 专知VIP

会员服务 ·

89

AI与军事 · 多智能体强化学习 · 协同目标分配 ·

2023 年 9 月 5 日

基于多智能体强化学习的协同目标分配

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

针对传统方法难以适用于动态不确定环境下的大规模协同目标分配问题, 提出一种基于多智能体强化学习的协同目标分配模型及训练方法。通过对相关概念和数学模型的描述, 将协同目标分配转化为多智能体协作问题。聚焦于顶层分配策略的学习, 构建了策略评分模型和策略推理模型, 采用Advantage Actor-Critic算法进行策略优化。仿真实验结果表明, 所提方法能够准确刻画作战单元之间的协同演化内因, 有效地实现了大规模协同目标分配方案的动态生成。

协同目标分配, 决定了兵力运用的科学性和合理性, 是将作战意图落地为作战行动的关键环节[1]。在同一时间或空间范围内, 多个作战单元为完成同一项作战任务或相互之间存在逻辑关系的多个作战任务时, 需从时间、空间和效果等角度考虑, 进行目标或火力的合理分配, 以最大作战效费比和最小作战风险获得最优打击效果。

协同目标分配是一种典型的非线性多项式完全问题, 决策空间随问题规模(即作战单元数目和作战目标数目)增大呈指数级增长, 求解结果的的实时性、准确性和有效性将直接影响军事对抗中能否取得最佳作战效果。在军事运筹领域, 协同目标分配通常被规约为兵力分配、火力分配或武器目标分配(weapon target assignment, WTA)等问题[2-3], 常用求解方法可分为传统规划方法[4]、模拟退火(simulated annealing, SA)算法[5-6]、蚁群优化(ant colony optimization, ACO)算法[7]、粒子群优化(partical swarm optimization, PSO)算法[8-11]、进化算法(evolutionary algorithm, EA)[12-15]和合同网协议(contract net protocol, CNP)[16]。现有研究虽从不同角度对各种算法进行了改进, 并成功应用于不同场景, 但关于动态不确定环境下的协同目标分配研究较少, 且难以保证大规模目标分配问题的求解效率。

在分布式作战自同步理论中[17], 协同关系体现为作战单元“自底向上组织复杂战争的行为”。将作战单元构建为智能体, 协同目标分配问题便转化为多智能体协作(multi-agent cooperation, MAC)问题, 多智能体强化学习(multi-agent reinforcement learning, MARL)[18]在解决类似协作问题上有着广泛应用[19-23]。据此, 通过分析协同目标分配的军事内涵, 构建了基于MARL的协同目标分配模型, 采用局部策略评分和集中式策略推理, 利用Advantage Actor-Critic算法进行策略学习, 以期能够实现简单场景中训练好的模型直接泛化应用到复杂场景, 从而有效实现大规模目标分配。

成为VIP会员查看完整内容

相关内容

AI与军事

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

基于知识图谱的仿真想定智能生成方法

基于知识图谱的仿真想定智能生成方法

专知会员服务

109+阅读 · 2023年6月4日

战术先验知识启发的多智能体双层强化学习

战术先验知识启发的多智能体双层强化学习

专知会员服务

113+阅读 · 2023年5月9日

基于多智能体深度强化学习的体系任务分配方法

基于多智能体深度强化学习的体系任务分配方法

专知会员服务

154+阅读 · 2023年5月4日

面向工业监控典型监督任务的深度迁移学习方法：现状、挑战与展望

面向工业监控典型监督任务的深度迁移学习方法：现状、挑战与展望

专知会员服务

38+阅读 · 2023年1月8日

基于课程学习的深度强化学习研究综述

基于课程学习的深度强化学习研究综述

专知会员服务

58+阅读 · 2022年11月28日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知会员服务

160+阅读 · 2022年9月28日

「深度分层强化学习DHRL」最新2022研究与进展综述

「深度分层强化学习DHRL」最新2022研究与进展综述

专知会员服务

99+阅读 · 2022年8月6日

【ICML2021】去中心化分布式训练的最优复杂度

专知会员服务

26+阅读 · 2021年9月28日

【KDD2021】强化迭代知识蒸馏的跨语言命名实体识别

专知会员服务

25+阅读 · 2021年6月17日

面向自然语言处理的深度学习对抗样本综述

专知会员服务

44+阅读 · 2021年5月6日

【AAAI2023】终身嵌入学习和迁移的知识图谱增长

【AAAI2023】终身嵌入学习和迁移的知识图谱增长

专知

6+阅读 · 2022年12月1日

多模态数据的行为识别综述

多模态数据的行为识别综述

专知

4+阅读 · 2022年11月30日

「基于课程学习的深度强化学习」研究综述

「基于课程学习的深度强化学习」研究综述

专知

9+阅读 · 2022年11月28日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

30+阅读 · 2022年11月12日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

52+阅读 · 2022年4月25日

TKDE 2020 | 面向严格冷启动推荐的属性图神经网络

TKDE 2020 | 面向严格冷启动推荐的属性图神经网络

PaperWeekly

13+阅读 · 2020年12月18日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

AAAI 2019 | 基于分层强化学习的关系抽取

AAAI 2019 | 基于分层强化学习的关系抽取

PaperWeekly

20+阅读 · 2019年3月27日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

面向直线超声电机高性能运动控制的分步综合非线性系统辨识建模

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向复杂情报的大数据分析方法与决策支持

国家自然科学基金

37+阅读 · 2014年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

过程感知信息系统的跨组织业务过程建模与分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

16+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

VIP会员

相关主题

多智能体强化学习

协同目标分配

相关VIP内容

基于知识图谱的仿真想定智能生成方法

基于知识图谱的仿真想定智能生成方法

专知会员服务

109+阅读 · 2023年6月4日

战术先验知识启发的多智能体双层强化学习

战术先验知识启发的多智能体双层强化学习

专知会员服务

113+阅读 · 2023年5月9日

基于多智能体深度强化学习的体系任务分配方法

基于多智能体深度强化学习的体系任务分配方法

专知会员服务

154+阅读 · 2023年5月4日

面向工业监控典型监督任务的深度迁移学习方法：现状、挑战与展望

面向工业监控典型监督任务的深度迁移学习方法：现状、挑战与展望

专知会员服务

38+阅读 · 2023年1月8日

基于课程学习的深度强化学习研究综述

基于课程学习的深度强化学习研究综述

专知会员服务

58+阅读 · 2022年11月28日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知会员服务

160+阅读 · 2022年9月28日

「深度分层强化学习DHRL」最新2022研究与进展综述

「深度分层强化学习DHRL」最新2022研究与进展综述

专知会员服务

99+阅读 · 2022年8月6日

【ICML2021】去中心化分布式训练的最优复杂度

专知会员服务

26+阅读 · 2021年9月28日

【KDD2021】强化迭代知识蒸馏的跨语言命名实体识别

专知会员服务

25+阅读 · 2021年6月17日

面向自然语言处理的深度学习对抗样本综述

专知会员服务

44+阅读 · 2021年5月6日

热门VIP内容

开通专知VIP会员享更多权益服务

《战区安全决策课程体系》最新244页

《"无人机航母"原型平台》

任务规划与地形分析：现代复杂环境作战导航体系

《攻击场景描述形式化模型研究》

相关资讯

【AAAI2023】终身嵌入学习和迁移的知识图谱增长

【AAAI2023】终身嵌入学习和迁移的知识图谱增长

专知

6+阅读 · 2022年12月1日

多模态数据的行为识别综述

多模态数据的行为识别综述

专知

4+阅读 · 2022年11月30日

「基于课程学习的深度强化学习」研究综述

「基于课程学习的深度强化学习」研究综述

专知

9+阅读 · 2022年11月28日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

30+阅读 · 2022年11月12日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

52+阅读 · 2022年4月25日

TKDE 2020 | 面向严格冷启动推荐的属性图神经网络

TKDE 2020 | 面向严格冷启动推荐的属性图神经网络

PaperWeekly

13+阅读 · 2020年12月18日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

AAAI 2019 | 基于分层强化学习的关系抽取

AAAI 2019 | 基于分层强化学习的关系抽取

PaperWeekly

20+阅读 · 2019年3月27日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

相关基金

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

面向直线超声电机高性能运动控制的分步综合非线性系统辨识建模

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向复杂情报的大数据分析方法与决策支持

国家自然科学基金

37+阅读 · 2014年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

过程感知信息系统的跨组织业务过程建模与分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

16+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

微信扫码咨询专知VIP会员