多智能体强化学习(MARL)是一个种类繁多、高度活跃的研究领域。随着深度学习在 2015年引入多智能体强化学习,该领域的研究活动出现了爆炸式增长,现在所有主要的人工智能和机器学习会议都会例行讨论开发新的多智能体强化学习算法或以某种方式应用多智能体强化学习的论文。此后发表的调查论文数量不断增加,也证明了这一急剧增长,我们在附录 A 中列出了其中的许多论文。
随着这一增长,该领域显然需要一本教科书来对 MARL 进行原则性介绍。本书部分基于 "多智能体学习:基础与最新趋势 "教程,并在很大程度上沿用了该教程的结构: Stefano V. Albrecht 和 Peter Stone 在澳大利亚墨尔本举行的 2017 年国际人工智能联合会议上所做的题为 "多智能体学习:基础与最新趋势 "的教程。编写本书的目的是对MARL中的模型、求解概念、算法思想和技术挑战进行基本介绍,并描述MARL中融合深度学习技术以产生强大新算法的现代方法。从本质上讲,我们认为本书所涉及的材料应该为每一位 MARL 研究人员所了解。此外,本书还旨在为研究人员和从业人员在使用 MARL 算法时提供实用指导。为此,本书附带了用 Python 编程语言编写的代码库,其中包含本书讨论的几种 MARL 算法的实现。代码库的主要目的是提供自成一体、易于阅读的算法代码,以帮助读者理解。
本书假定读者具有本科水平的基础数学背景,包括统计学、概率论、线性代数和微积分。要理解和使用代码库,需要熟悉基本的编程概念。一般来说,我们建议按照给定的顺序阅读本书的各个章节。对于不熟悉强化学习和深度学习的读者,我们分别在第2章、第7章和第8章提供了基础知识。已经熟悉强化学习和深度学习的读者,如果想快速掌握基于深度学习的最新 MARL 算法,可以先阅读第 3 章,然后跳到第 9 章及以后的章节。为了帮助讲师采用本书,我们制作了讲义幻灯片(可从本书网站获取),讲义幻灯片可根据课程需要进行修改。
MARL 已成为一个庞大的研究领域,本书并未涵盖 MARL 的所有方面。例如,关于在 MARL 中使用通信的研究成果越来越多,但本书并未涉及。这包括的问题有:当通信渠道嘈杂、不可靠时,智能体如何学会稳健地进行通信;以及智能体如何利用 MARL 学习特定任务的专用通信协议或语言。虽然本书的重点不是 MARL 中的通信,但本书介绍的模型具有足够的通用性,也可以表示智能体可以观察到但不影响环境状态的通信行为。此外,还有关于使用进化方法进行多智能体学习的研究,即智能体种群中的突变和交叉,本书不涉及这方面的内容。最后,近年来,MARL 领域的研究活动急剧增加,试图写一本书来跟上新算法的步伐是徒劳的。我们将重点放在 MARL 的基本概念和思想上,并参考调查论文(包括附录 A 中列出的论文),以获得更完整的算法发展列表。