随着深度学习和强化学习而来的人工智能新浪潮, 为智能体从感知输入到行动决策输出提供了“端到端”解决方案。多智能体学习是研究智能博弈对抗的前沿课题, 面临着对抗性环境、非平稳对手、不完全信息和不确定行动等诸多难题与挑战。本文从博弈论视角入手, 首先给出了多智能体学习系统组成,进行了多智能体学习概述, 简要介绍了各类多智能体学习研究方法。其次, 围绕多智能体博弈学习框架, 介绍了多智能体博弈基础模型及元博弈模型, 均衡解概念和博弈动力学, 学习目标多样、环境(对手)非平稳、均衡难解且易变等挑战。再次, 全面梳理了多智能体博弈策略学习方法, 离线博弈策略学习方法, 在线博弈策略学习方法。最后,从智能体认知行为建模与协同、通用博弈策略学习方法和分布式博弈策略学习框架共3个方面探讨了多智能体学习的前沿研究方向。 人类社会生活中存在着各种不同形式的对抗、竞争和 合作,其中对抗一直是人类文明发展史发展的最强劲推动 力。正是由于个体与个体、个体与群体、群体与群体之间复 杂的动态博弈对抗演化,才不断促进人类智能升级换代[1]。 人工智能技术的发展呈现出计算、感知和认知3个阶段[2], 大数据、大算力和智能算法为研究认知智能提供了先决条 件。从人工智能技术发展的角度来看,计算智能主要以科 学运算、逻辑处理、统计查询等形式化规则化运算为核心,能存会算会查找。感知智能主要以图像理解、语音识别、机 器翻译为代表,基于深度学习模型,能听会说能看会认。认 知智能主要以理解、推理、思考和决策为代表,强调认知推 理,自主学习能力,能理解会思考决策。博弈智能作为决策 智能的前沿范式,是认知智能的高阶表现形式,其主要以博 弈论为理论支撑,以反事实因果推理、可解释性决策为表现 形式,强调将其他智能体(队友及对手)纳入己方的决策环 进行规则自学习、博弈对抗演化、可解释性策略推荐等。当 前,博弈智能已然成为人工智能领域的前沿方面、通用人工 智能的重要问题。 多智能体系统一般是指由多个独立的智能体组成的分 布式系统,每个智能体均受到独立控制,但需在同一个环境 中与其他智能体交互[3]。Shoham 等人[4]将多智能体系统 定义为包含多个自治实体的系统,这些实体要么有不同的 信息,要么有不同的兴趣,或两者兼有。Muller等人[5]对由 多智能体系统技术驱动的各个领域的152个真实应用进行 了分类总结和分析。多智能体系统是分布式人工智能的一 个重要分支,主要研究智能体之间的交互通信、协调合作、 冲突消解等方面的内容,强调多个智能体之间的紧密群体 合作,而非个体能力的自治和发挥。智能体之间可能存在 对抗、竞争或合作关系,单个智能体可通过信息交互与友方 进行协调配合,一同对抗敌对智能体。由于每个智能体均 能够自主学习,多智能体系统通常表现出涌现性能力。当 前,多智能体系统模型常用于描述共享环境下多个具有感 知、计算、推理和行动能力的自主个体组成的集合,典型应 用包括各类机器博弈、拍卖、在线平台交易、资源分配(路由 包、服务器分配)、机器人足球、无线网络、多方协商、多机器 人灾难救援、自动驾驶和无人集群对抗等。其中,基于机器 博弈(计算机博弈)的人机对抗,作为图灵测试的典型范 式[6],是研究人工智能的果蝇[7]。多智能体系统被广泛用 于解决分布式决策优化问题,其成功的关键是高效的多智 能体学习方法。多智能体学习主要研究由多个自主个体组 成的多智能体系统如何通过学习探索、利用经验提升自身 性能的过程[8]。如何通过博弈策略学习提高多智能体系统 的自主推理与决策能力是人工智能和博弈论领域面临的前 沿挑战。