本项目的目标是提高具有智能体间通信基础设施的多智能体分布式任务协调的效率。在这个项目的第一阶段,我们探索了基于共识的捆绑算法(CBBA)在预算约束下的分布式任务分配的改进。CBBA技术的局限性在于,环境必须被所有的智能体预先知道,任务必须被明确定义,并有已知的成本和奖励。这种技术显然不适合在未知环境中的合作任务,在这种环境中,智能体必须一起探索和即兴行动。在这个项目的第二阶段,我们研究了在未知环境中执行任务的合作技术,其中智能体只有部分观察。该研究使用多智能体捕食者和猎物游戏作为平台。目标是让智能体联合定位并捕获猎物。智能体对环境和猎物的逃逸算法没有事先了解。他们相互交流,以获得超出他们自己本地观察范围的环境信息。基于他们对环境的局部理解,智能体选择自己的行动,包括在哪里移动以及是否与其他智能体沟通,以使团队奖励最大化。强化学习被应用于优化智能体的政策,以便用最少的步骤完成游戏。
第二阶段研究的主要贡献是信仰图谱辅助的多智能体系统(BAMS)。信念图代表了智能体在融合了传入的信息后所保持的环境的隐藏状态。通过将信仰图谱与强化学习框架相结合,并向信仰图谱提供反馈,我们加速了训练并提高了系统可以获得的奖励。在不同复杂程度的环境中,使用合作的捕食者和猎物游戏对BAMS的性能进行了评估。与现有的具有信息传递能力的多智能体模型相比,BAMS具有以下优点。
1)训练收敛速度快68%,使用BAMS模型训练的智能体完成游戏的步骤少27.5%。
2)它具有强大的性能。在应用模式中,智能体的数量不必与训练环境相同。
3)智能体之间的信息是加密的。BAMS中的信息是智能体对环境信念的学习表示的向量。它们不仅包含关于智能体和环境的当前状态的信息,而且还包含未来的状态。每个数字都与智能体或环境的任何物理属性没有对应关系。除非有经过训练的BAMS模型,否则不可能解码这些信息。
4)智能体在训练中达成默契。从实验结果来看,使用BAMS训练的智能体似乎不需要明确的交流就能理解对方的意图。