现实世界中越来越多的控制问题需要软件智能体团队通过合作来解决联合任务。每当人类工人被机器取代时,例如制造业中的机器人手臂或交通运输中的自动驾驶汽车,这种任务自然就会出现。与此同时,新技术产生了新的合作控制问题,这些问题超出了人类的能力范围,例如在包裹路由方面。无论是出于物理约束,如部分可观察性、鲁棒性要求,还是为了管理大型联合行动空间,协作代理通常需要以完全分散的方式工作。这意味着每个智能体在任务执行期间只能访问自己的局部感知输入,而没有与其他智能体的显式通信通道。深度多智能体强化学习(DMARL)是这种环境下学习控制策略的自然框架。当在模拟或实验室中进行训练时,学习算法通常会获得在执行时无法获得的额外信息。这种带去中心化执行的集中训练(CTDE)给试图利用集中设置来促进去中心化策略训练的DMARL算法带来了许多技术挑战。这些困难主要来自联合策略学习和独立学习之间的明显不一致,联合策略学习可以学习任意策略,但不是简单的去中心化的,并且随着智能体的数量而扩展性差。独立学习很容易去中心化和可扩展性,但由于其他学习智能体的存在,其表达能力较差,并且容易出现环境的非平稳性。
本文的第一部分开发了使用价值分解技术的算法,以利用分散策略的集中训练。在深度多智能体强化学习的单调值分解中,提出了新的q学习算法QMIX。QMIX使用集中式单调混合网络来建模联合的团队行动-价值函数,但这些函数可以分解为离散行动空间上的分散智能体策略。为了评估QMIX的性能,我们开发了一个新的基准套件,星际争霸多智能体挑战(SMAC),它在星际争霸II的单元微管理中具有各种离散动作协同控制任务。与已有的玩具环境不同,由于大量不同的单位类型和复杂的内置敌人启发性,SMAC场景以多样化的动态为特色。许多机器人控制任务具有连续的动作空间。为了将值分解扩展到这些设置,在FACMAC: Factored多智能体集中式策略梯度中,重点研究了CTDE环境下多智能体学习的actor-critic方法。由此产生的学习算法FACMAC在SMAC上实现了最先进的性能,并打开了使用非单调批评因子分解的大门。就像QMIX一样,我们为协作连续控制任务引入了一个新的基准套件,Multi-Agent Mujoco (MAMujoco)。MAMujoco将流行的Mujoco基准套件中的机器人分解为多个具有可配置部分可观测约束的智能体。
本文的第二部分探讨了公共知识作为行动协调和沟通资源的价值。在大量实际感兴趣的任务中,智能体组之间的公共知识出现了,例如,智能体是否可以在重叠的视野中相互识别。在多智能体公共知识强化学习中,本文提出了一种新的actor-critic方法MACKRL,该方法在不同规模的智能体组之间的公共知识上构建一个分层控制器。这种层次结构产生了一个分散的策略结构,该结构实现了一个联合独立的混合策略,该策略执行分散的联合策略或退回到独立的策略,这取决于代理组之间的共同知识是否足够提供行动协调所需的信息。这样,在充分分散权力的同时,MACKRL也享有联合策略训练的协调优势。 论文的第三部分研究了如何学习高效的协同任务隐式通信协议。在通过马尔可夫决策过程进行通信中,我们将探讨发送方智能体如何在仅通过其动作将信息通信给接收方代理的同时最优地执行任务。在这种新型的隐式参考博弈中,发送方和接收方智能体通常都知道发送方的策略和发送方的轨迹。通过将发送者任务拆分为单个智能体最大熵强化学习任务和基于最小熵耦合的单独消息编码步骤,我们表明,我们的方法GME能够建立比那些训练过的端到端通信通道更高带宽的通信通道。
综上所述,本论文在集中训练与分散执行框架下的协同控制的深度多智能体强化和两个相关的新基准套件中提出了一些重要贡献。在此背景下,我们对价值分解、在多智能体学习中使用公共知识以及如何有效地学习隐式通信协议做出了贡献。
https://ora.ox.ac.uk/objects/uuid:d68575fc-8b5b-4b57-a917-3921119096fd
牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。