深度强化学习的最新进展取得了前所未有的成果。在单智能体应用中取得的成功促使人们在多智能体系统中探索这些技术,而在多智能体系统中还需要考虑一些额外的挑战。在多智能体领域,通信一直是实现合作的关键,而学会通信则是多智能体强化学习算法的一个基本里程碑。本文探讨了不同的多智能体强化学习方法。这些方法提供了端到端学习的架构,能够实现有效的通信协议,从而提高合作环境中的系统性能。首先,我们研究了一种新颖的方法,在这种方法中,智能体内部的通信是通过共享内存设备进行的,智能体可以通过可学习的读写操作来交换信息。其次,提出了一种基于图的方法,在这种方法中,连接性是通过交换成对信息形成的,然后通过一种基于图扩散模型的新型关注机制进行聚合。最后,我们提出了一组新的环境,这些环境具有现实世界的约束条件,我们利用这些约束条件对最新的先进解决方案进行基准测试。我们的研究结果表明,通信是克服多智能体合作系统固有困难的基本工具。
本文的主要贡献概述如下:
在第 3 章中,提出了一种新颖的多智能体方法,即通过提供一个中央共享存储器来实现智能体之间的通信,每个智能体必须学会使用该存储器才能按顺序为其他智能体读写信息;
在第 4 章中,讨论了一种新颖的多智能体模型,该模型首先构建了一个连接性图来编码成对的信息,然后通过建议的注意力机制,利用扩散模型(如热核(HK))来生成一套针对特定智能体的编码;
在第 5 章中,提出了一种在现实环境中模拟无人机行为的环境,并介绍了一系列实验,以评估几种最先进方法在此类场景中的性能。