多智能体博弈学习研究进展

随着深度学习和强化学习而来的人工智能新浪潮, 为智能体从感知输入到行动决策输出提供了“端到端”解决方案。多智能体学习是研究智能博弈对抗的前沿课题, 面临着对抗性环境、非平稳对手、不完全信息和不确定行动等诸多难题与挑战。本文从博弈论视角入手, 首先给出了多智能体学习系统组成，进行了多智能体学习概述, 简要介绍了各类多智能体学习研究方法。其次, 围绕多智能体博弈学习框架, 介绍了多智能体博弈基础模型及元博弈模型, 均衡解概念和博弈动力学, 学习目标多样、环境(对手)非平稳、均衡难解且易变等挑战。再次, 全面梳理了多智能体博弈策略学习方法, 离线博弈策略学习方法, 在线博弈策略学习方法。最后，从智能体认知行为建模与协同、通用博弈策略学习方法和分布式博弈策略学习框架共3个方面探讨了多智能体学习的前沿研究方向。人类社会生活中存在着各种不同形式的对抗、竞争和合作，其中对抗一直是人类文明发展史发展的最强劲推动力。正是由于个体与个体、个体与群体、群体与群体之间复杂的动态博弈对抗演化，才不断促进人类智能升级换代［１］。人工智能技术的发展呈现出计算、感知和认知３个阶段［２］，大数据、大算力和智能算法为研究认知智能提供了先决条件。从人工智能技术发展的角度来看，计算智能主要以科学运算、逻辑处理、统计查询等形式化规则化运算为核心，能存会算会查找。感知智能主要以图像理解、语音识别、机器翻译为代表，基于深度学习模型，能听会说能看会认。认知智能主要以理解、推理、思考和决策为代表，强调认知推理，自主学习能力，能理解会思考决策。博弈智能作为决策智能的前沿范式，是认知智能的高阶表现形式，其主要以博弈论为理论支撑，以反事实因果推理、可解释性决策为表现形式，强调将其他智能体（队友及对手）纳入己方的决策环进行规则自学习、博弈对抗演化、可解释性策略推荐等。当前，博弈智能已然成为人工智能领域的前沿方面、通用人工智能的重要问题。多智能体系统一般是指由多个独立的智能体组成的分布式系统，每个智能体均受到独立控制，但需在同一个环境中与其他智能体交互［３］。Ｓｈｏｈａｍ等人［４］将多智能体系统定义为包含多个自治实体的系统，这些实体要么有不同的信息，要么有不同的兴趣，或两者兼有。Ｍｕｌｌｅｒ等人［５］对由多智能体系统技术驱动的各个领域的１５２个真实应用进行了分类总结和分析。多智能体系统是分布式人工智能的一个重要分支，主要研究智能体之间的交互通信、协调合作、冲突消解等方面的内容，强调多个智能体之间的紧密群体合作，而非个体能力的自治和发挥。智能体之间可能存在对抗、竞争或合作关系，单个智能体可通过信息交互与友方进行协调配合，一同对抗敌对智能体。由于每个智能体均能够自主学习，多智能体系统通常表现出涌现性能力。当前，多智能体系统模型常用于描述共享环境下多个具有感知、计算、推理和行动能力的自主个体组成的集合，典型应用包括各类机器博弈、拍卖、在线平台交易、资源分配（路由包、服务器分配）、机器人足球、无线网络、多方协商、多机器人灾难救援、自动驾驶和无人集群对抗等。其中，基于机器博弈（计算机博弈）的人机对抗，作为图灵测试的典型范式［６］，是研究人工智能的果蝇［７］。多智能体系统被广泛用于解决分布式决策优化问题，其成功的关键是高效的多智能体学习方法。多智能体学习主要研究由多个自主个体组成的多智能体系统如何通过学习探索、利用经验提升自身性能的过程［８］。如何通过博弈策略学习提高多智能体系统的自主推理与决策能力是人工智能和博弈论领域面临的前沿挑战。