本项目的目标是提高具有智能体间通信基础设施的多智能体分布式任务协调的效率。在这个项目的第一阶段,我们探索了基于共识的捆绑算法(CBBA)在预算约束下的分布式任务分配的改进。CBBA技术的局限性在于,环境必须被所有的智能体预先知道,任务必须被明确定义,并有已知的成本和奖励。这种技术显然不适合在未知环境中的合作任务,在这种环境中,智能体必须一起探索和即兴行动。在这个项目的第二阶段,我们研究了在未知环境中执行任务的合作技术,其中智能体只有部分观察。该研究使用多智能体捕食者和猎物游戏作为平台。目标是让智能体联合定位并捕获猎物。智能体对环境和猎物的逃逸算法没有事先了解。他们相互交流,以获得超出他们自己本地观察范围的环境信息。基于他们对环境的局部理解,智能体选择自己的行动,包括在哪里移动以及是否与其他智能体沟通,以使团队奖励最大化。强化学习被应用于优化智能体的政策,以便用最少的步骤完成游戏。

第二阶段研究的主要贡献是信仰图谱辅助的多智能体系统(BAMS)。信念图代表了智能体在融合了传入的信息后所保持的环境的隐藏状态。通过将信仰图谱与强化学习框架相结合,并向信仰图谱提供反馈,我们加速了训练并提高了系统可以获得的奖励。在不同复杂程度的环境中,使用合作的捕食者和猎物游戏对BAMS的性能进行了评估。与现有的具有信息传递能力的多智能体模型相比,BAMS具有以下优点。

1)训练收敛速度快68%,使用BAMS模型训练的智能体完成游戏的步骤少27.5%。

2)它具有强大的性能。在应用模式中,智能体的数量不必与训练环境相同。

3)智能体之间的信息是加密的。BAMS中的信息是智能体对环境信念的学习表示的向量。它们不仅包含关于智能体和环境的当前状态的信息,而且还包含未来的状态。每个数字都与智能体或环境的任何物理属性没有对应关系。除非有经过训练的BAMS模型,否则不可能解码这些信息。

4)智能体在训练中达成默契。从实验结果来看,使用BAMS训练的智能体似乎不需要明确的交流就能理解对方的意图。

  1. 解码后的信念图为智能体的决定提供了一个粗略的解释。信念图解码器与BAMS中的策略网络一起训练。通过比较信仰地图和实际地图,系统收到额外的反馈渠道,从而监督训练过程。在执行过程中,信仰图谱提供了一种解释智能体隐藏状态的方法,这可以进一步用来解释智能体的行为。

成为VIP会员查看完整内容
84

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
70+阅读 · 2023年2月23日
多智能体协同决策方法研究
专知会员服务
122+阅读 · 2022年12月15日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
53+阅读 · 2022年11月2日
专知会员服务
16+阅读 · 2021年7月27日
南大最新综述论文:基于模型的强化学习
新智元
8+阅读 · 2022年8月1日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
Arxiv
0+阅读 · 2023年6月8日
Arxiv
0+阅读 · 2023年6月8日
Arxiv
16+阅读 · 2022年11月1日
Arxiv
38+阅读 · 2021年8月31日
VIP会员
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
微信扫码咨询专知VIP会员