本项目的目标是利用智能体间通信基础设施提高多智能体任务分布式协调的效率。在这个项目的第一阶段,我们探索了基于共识捆绑算法(CBBA)的增强,用于预算约束下的分布式任务分配。CBBA技术的局限性在于,所有智能体必须预先知道环境,并且必须清楚地定义具有已知代价和回报的任务。这种技术显然不适合在未知环境下的合作任务,因为智能体间必须一起探索和即兴发挥他们的行动。在本项目的第二阶段,我们研究了在未知环境下,智能体只有部分观测的任务合作技术。本研究以多智能体捕食博弈为平台。目标是让智能体共同定位和捕获猎物。智能体对环境和猎物的逃跑算法没有先验知识。他们相互交流,以获得超出自己局部观测的环境信息。基于对环境的局部理解,智能体选择自己的行动,包括移动到哪里以及是否与其他智能体通信,以最大化团队奖励。应用强化学习来优化智能体的策略,使游戏以最少的步骤完成。

我们第二阶段研究的主要贡献是信念图辅助多智能体系统(BAMS)。信任映射表示智能体在融合传入消息后维护环境的隐藏状态。通过将信念图与强化学习框架集成,并向信念图提供反馈,我们加速了训练并提高了系统可以接收的奖励。在不同复杂程度的环境中,使用捕食者和猎物合作游戏来评估BAMS的性能。与具有消息传递功能的现有多智能体模型相比,BAMS提供了以下优点:

1)训练收敛速度加快68%,使用BAMS模型训练的智能体完成游戏的步数减少了27.5%。

2)性能稳健:应用模式下,智能体的数量不必与训练环境相同。

3)对智能体之间的通信信息进行加密。BAMS中的信息是智能体对环境信念的学习表征的向量。它们不仅包含关于智能体和环境的当前和未来状态的信息。每个数字与智能体或环境的任何物理属性都不对应。除非有经过训练的BAMS模型,否则不可能解码信息。

4)智能体在训练过程中达成默契。从实验结果来看,使用BAMS训练的智能体似乎可以在没有明确通信的情况下理解彼此的意图。

5)解码后的信念图为智能体的决策提供了一个粗略的解释。在BAMS中,信念图解码器与策略网络一起训练。通过将信念图与实际图进行比较,系统接收到额外的反馈通道,从而监督训练过程。在执行过程中,信念图提供了一种解释智能体隐藏状态的方法,可以进一步用于解释智能体的行为。

成为VIP会员查看完整内容
120

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《针对算法战的人工智能操作化》美陆军报告(译文)
专知会员服务
123+阅读 · 2023年1月14日
《人与智能体中的双向通信》2022最新103页报告,美陆军
专知会员服务
53+阅读 · 2022年11月30日
综述 | 分布式GNN训练算法和系统,35页pdf
图与推荐
4+阅读 · 2022年11月2日
【强化学习】强化学习+深度学习=人工智能
产业智能官
51+阅读 · 2017年8月11日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
国家自然科学基金
8+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
国家自然科学基金
8+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员