《高效和公平的自主智能体分布式任务分配算法：基于机器学习的方法》2023最新报告 - 专知VIP

会员服务 ·

64

AI与军事 · 任务分配 · 机器学习 · 美国空军研究实验室（AFRL） ·

2023 年 4 月 25 日

《高效和公平的自主智能体分布式任务分配算法：基于机器学习的方法》2023最新报告

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本项目的目标是提高具有智能体间通信基础设施的多智能体分布式任务协调的效率。在这个项目的第一阶段，我们探索了基于共识的捆绑算法（CBBA）在预算约束下的分布式任务分配的改进。CBBA技术的局限性在于，环境必须被所有的智能体预先知道，任务必须被明确定义，并有已知的成本和奖励。这种技术显然不适合在未知环境中的合作任务，在这种环境中，智能体必须一起探索和即兴行动。在这个项目的第二阶段，我们研究了在未知环境中执行任务的合作技术，其中智能体只有部分观察。该研究使用多智能体捕食者和猎物游戏作为平台。目标是让智能体联合定位并捕获猎物。智能体对环境和猎物的逃逸算法没有事先了解。他们相互交流，以获得超出他们自己本地观察范围的环境信息。基于他们对环境的局部理解，智能体选择自己的行动，包括在哪里移动以及是否与其他智能体沟通，以使团队奖励最大化。强化学习被应用于优化智能体的政策，以便用最少的步骤完成游戏。

第二阶段研究的主要贡献是信仰图谱辅助的多智能体系统（BAMS）。信念图代表了智能体在融合了传入的信息后所保持的环境的隐藏状态。通过将信仰图谱与强化学习框架相结合，并向信仰图谱提供反馈，我们加速了训练并提高了系统可以获得的奖励。在不同复杂程度的环境中，使用合作的捕食者和猎物游戏对BAMS的性能进行了评估。与现有的具有信息传递能力的多智能体模型相比，BAMS具有以下优点。

1）训练收敛速度快68%，使用BAMS模型训练的智能体完成游戏的步骤少27.5%。

2）它具有强大的性能。在应用模式中，智能体的数量不必与训练环境相同。

3）智能体之间的信息是加密的。BAMS中的信息是智能体对环境信念的学习表示的向量。它们不仅包含关于智能体和环境的当前状态的信息，而且还包含未来的状态。每个数字都与智能体或环境的任何物理属性没有对应关系。除非有经过训练的BAMS模型，否则不可能解码这些信息。

4）智能体在训练中达成默契。从实验结果来看，使用BAMS训练的智能体似乎不需要明确的交流就能理解对方的意图。

解码后的信念图为智能体的决定提供了一个粗略的解释。信念图解码器与BAMS中的策略网络一起训练。通过比较信仰地图和实际地图，系统收到额外的反馈渠道，从而监督训练过程。在执行过程中，信仰图谱提供了一种解释智能体隐藏状态的方法，这可以进一步用来解释智能体的行为。

成为VIP会员查看完整内容

92

相关内容

AI与军事

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

【牛津大学博士论文】在大状态行动空间中的强化学习, 288页pdf

【牛津大学博士论文】在大状态行动空间中的强化学习, 288页pdf

专知会员服务

53+阅读 · 2023年6月10日

美国空军 |《自主智能体高效公平的分布式任务分配算法》2023最新技术报告

美国空军 |《自主智能体高效公平的分布式任务分配算法》2023最新技术报告

专知会员服务

141+阅读 · 2023年3月25日

博士论文 |《多智能体系统：协作辅助智能体和对对抗性攻击的鲁棒性》哈佛大学

博士论文 |《多智能体系统：协作辅助智能体和对对抗性攻击的鲁棒性》哈佛大学

专知会员服务

66+阅读 · 2023年2月27日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

多智能体协同决策方法研究

多智能体协同决策方法研究

专知会员服务

130+阅读 · 2022年12月15日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

55+阅读 · 2022年11月2日

《用于持久性态势感知的新型传感器网络采集任务分配方法》加拿大国防研究与发展部2022最新38页报告

《用于持久性态势感知的新型传感器网络采集任务分配方法》加拿大国防研究与发展部2022最新38页报告

专知会员服务

64+阅读 · 2022年10月27日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知会员服务

91+阅读 · 2022年9月25日

DeepMind最新114页报告《多智能体强化学习中的新兴易货贸易行为》

DeepMind最新114页报告《多智能体强化学习中的新兴易货贸易行为》

专知会员服务

25+阅读 · 2022年7月15日

【KDD2021】公平感知的在线元学习

专知会员服务

18+阅读 · 2021年7月27日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知

7+阅读 · 2022年11月2日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

47+阅读 · 2022年10月6日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知

7+阅读 · 2022年9月25日

ACL 2022 | 面向对话状态追踪任务的回合级公平评测

ACL 2022 | 面向对话状态追踪任务的回合级公平评测

PaperWeekly

0+阅读 · 2022年8月21日

南大最新综述论文：基于模型的强化学习

南大最新综述论文：基于模型的强化学习

新智元

8+阅读 · 2022年8月1日

DeepMind最新114页报告《多智能体强化学习中的新兴易货贸易行为》

DeepMind最新114页报告《多智能体强化学习中的新兴易货贸易行为》

专知

4+阅读 · 2022年7月16日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

去中心化多智能体导航的基于模型的强化学习 (RL)

去中心化多智能体导航的基于模型的强化学习 (RL)

TensorFlow

13+阅读 · 2021年6月24日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

基于分布式字符串匹配的高效云存储完整性审计协议研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境分布式存储一致性维护的关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

大规模RFID系统标签的自适应高效准确识别策略研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向云计算环境的高效视频编码多粒度优化关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

协同生态粒子群计算模型及动态优化方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向大规模优化问题的基于云计算模型的协同差分进化方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

拓扑连通性保持与目标任务共同引导的多智能体跨层协同控制

国家自然科学基金

2+阅读 · 2011年12月31日

多移动机器人主动合作观测方法研究

国家自然科学基金

1+阅读 · 2010年12月31日

Target-based Surrogates for Stochastic Optimization

Arxiv

0+阅读 · 2023年6月8日

Stochastic noise can be helpful for variational quantum algorithms

Arxiv

0+阅读 · 2023年6月8日

On rank statistics of PageRank and MarkovRank

Arxiv

0+阅读 · 2023年6月8日

Towards Decentralized Heterogeneous Multi-Robot SLAM and Target Tracking

Arxiv

0+阅读 · 2023年6月7日

Open-TransMind: A New Baseline and Benchmark for 1st Foundation Model Challenge of Intelligent Transportation

Arxiv

0+阅读 · 2023年6月7日

Multi-Agent Reinforcement Learning for Cooperative Air Transportation Services in City-Wide Autonomous Urban Air Mobility

Arxiv

0+阅读 · 2023年6月7日

Distributed Graph Neural Network Training: A Survey

Arxiv

16+阅读 · 2022年11月1日

Information-theoretic generalization bounds for black-box learning algorithms

Arxiv

12+阅读 · 2021年10月4日

Towards Out-Of-Distribution Generalization: A Survey

Arxiv

38+阅读 · 2021年8月31日

Transfer Learning in Deep Reinforcement Learning: A Survey

Transfer Learning in Deep Reinforcement Learning: A Survey

Arxiv

23+阅读 · 2020年9月16日

VIP会员

相关主题

美国空军研究实验室（AFRL）

相关VIP内容

【牛津大学博士论文】在大状态行动空间中的强化学习, 288页pdf

【牛津大学博士论文】在大状态行动空间中的强化学习, 288页pdf

专知会员服务

53+阅读 · 2023年6月10日

美国空军 |《自主智能体高效公平的分布式任务分配算法》2023最新技术报告

美国空军 |《自主智能体高效公平的分布式任务分配算法》2023最新技术报告

专知会员服务

141+阅读 · 2023年3月25日

博士论文 |《多智能体系统：协作辅助智能体和对对抗性攻击的鲁棒性》哈佛大学

博士论文 |《多智能体系统：协作辅助智能体和对对抗性攻击的鲁棒性》哈佛大学

专知会员服务

66+阅读 · 2023年2月27日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

多智能体协同决策方法研究

多智能体协同决策方法研究

专知会员服务

130+阅读 · 2022年12月15日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

55+阅读 · 2022年11月2日

《用于持久性态势感知的新型传感器网络采集任务分配方法》加拿大国防研究与发展部2022最新38页报告

《用于持久性态势感知的新型传感器网络采集任务分配方法》加拿大国防研究与发展部2022最新38页报告

专知会员服务

64+阅读 · 2022年10月27日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知会员服务

91+阅读 · 2022年9月25日

DeepMind最新114页报告《多智能体强化学习中的新兴易货贸易行为》

DeepMind最新114页报告《多智能体强化学习中的新兴易货贸易行为》

专知会员服务

25+阅读 · 2022年7月15日

【KDD2021】公平感知的在线元学习

专知会员服务

18+阅读 · 2021年7月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知

7+阅读 · 2022年11月2日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

47+阅读 · 2022年10月6日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知

7+阅读 · 2022年9月25日

ACL 2022 | 面向对话状态追踪任务的回合级公平评测

ACL 2022 | 面向对话状态追踪任务的回合级公平评测

PaperWeekly

0+阅读 · 2022年8月21日

南大最新综述论文：基于模型的强化学习

南大最新综述论文：基于模型的强化学习

新智元

8+阅读 · 2022年8月1日

DeepMind最新114页报告《多智能体强化学习中的新兴易货贸易行为》

DeepMind最新114页报告《多智能体强化学习中的新兴易货贸易行为》

专知

4+阅读 · 2022年7月16日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

去中心化多智能体导航的基于模型的强化学习 (RL)

去中心化多智能体导航的基于模型的强化学习 (RL)

TensorFlow

13+阅读 · 2021年6月24日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

基于分布式字符串匹配的高效云存储完整性审计协议研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境分布式存储一致性维护的关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

大规模RFID系统标签的自适应高效准确识别策略研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向云计算环境的高效视频编码多粒度优化关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

协同生态粒子群计算模型及动态优化方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向大规模优化问题的基于云计算模型的协同差分进化方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

拓扑连通性保持与目标任务共同引导的多智能体跨层协同控制

国家自然科学基金

2+阅读 · 2011年12月31日

多移动机器人主动合作观测方法研究

国家自然科学基金

1+阅读 · 2010年12月31日

相关论文

Target-based Surrogates for Stochastic Optimization

Arxiv

0+阅读 · 2023年6月8日

Stochastic noise can be helpful for variational quantum algorithms

Arxiv

0+阅读 · 2023年6月8日

On rank statistics of PageRank and MarkovRank

Arxiv

0+阅读 · 2023年6月8日

Towards Decentralized Heterogeneous Multi-Robot SLAM and Target Tracking

Arxiv

0+阅读 · 2023年6月7日

Open-TransMind: A New Baseline and Benchmark for 1st Foundation Model Challenge of Intelligent Transportation

Arxiv

0+阅读 · 2023年6月7日

Multi-Agent Reinforcement Learning for Cooperative Air Transportation Services in City-Wide Autonomous Urban Air Mobility

Arxiv

0+阅读 · 2023年6月7日

Distributed Graph Neural Network Training: A Survey

Arxiv

16+阅读 · 2022年11月1日

Information-theoretic generalization bounds for black-box learning algorithms

Arxiv

12+阅读 · 2021年10月4日

Towards Out-Of-Distribution Generalization: A Survey

Arxiv

38+阅读 · 2021年8月31日

Transfer Learning in Deep Reinforcement Learning: A Survey

Transfer Learning in Deep Reinforcement Learning: A Survey

Arxiv

23+阅读 · 2020年9月16日

微信扫码咨询专知VIP会员