随着深度学习和强化学习而来的人工智能新浪潮, 为智能体从感知输入到行动决策输出提供了“端到端”解决方案。多智能体学习是研究智能博弈对抗的前沿课题, 面临着对抗性环境、非平稳对手、不完全信息和不确定行动等诸多难题与挑战。本文从博弈论视角入手, 首先给出了多智能体学习系统组成,进行了多智能体学习概述, 简要介绍了各类多智能体学习研究方法。其次, 围绕多智能体博弈学习框架, 介绍了多智能体博弈基础模型及元博弈模型, 均衡解概念和博弈动力学, 学习目标多样、环境(对手)非平稳、均衡难解且易变等挑战。再次, 全面梳理了多智能体博弈策略学习方法, 离线博弈策略学习方法, 在线博弈策略学习方法。最后,从智能体认知行为建模与协同、通用博弈策略学习方法和分布式博弈策略学习框架共3个方面探讨了多智能体学习的前沿研究方向。 人类社会生活中存在着各种不同形式的对抗、竞争和 合作,其中对抗一直是人类文明发展史发展的最强劲推动 力。正是由于个体与个体、个体与群体、群体与群体之间复 杂的动态博弈对抗演化,才不断促进人类智能升级换代[1]。 人工智能技术的发展呈现出计算、感知和认知3个阶段[2], 大数据、大算力和智能算法为研究认知智能提供了先决条 件。从人工智能技术发展的角度来看,计算智能主要以科 学运算、逻辑处理、统计查询等形式化规则化运算为核心,能存会算会查找。感知智能主要以图像理解、语音识别、机 器翻译为代表,基于深度学习模型,能听会说能看会认。认 知智能主要以理解、推理、思考和决策为代表,强调认知推 理,自主学习能力,能理解会思考决策。博弈智能作为决策 智能的前沿范式,是认知智能的高阶表现形式,其主要以博 弈论为理论支撑,以反事实因果推理、可解释性决策为表现 形式,强调将其他智能体(队友及对手)纳入己方的决策环 进行规则自学习、博弈对抗演化、可解释性策略推荐等。当 前,博弈智能已然成为人工智能领域的前沿方面、通用人工 智能的重要问题。 多智能体系统一般是指由多个独立的智能体组成的分 布式系统,每个智能体均受到独立控制,但需在同一个环境 中与其他智能体交互[3]。Shoham 等人[4]将多智能体系统 定义为包含多个自治实体的系统,这些实体要么有不同的 信息,要么有不同的兴趣,或两者兼有。Muller等人[5]对由 多智能体系统技术驱动的各个领域的152个真实应用进行 了分类总结和分析。多智能体系统是分布式人工智能的一 个重要分支,主要研究智能体之间的交互通信、协调合作、 冲突消解等方面的内容,强调多个智能体之间的紧密群体 合作,而非个体能力的自治和发挥。智能体之间可能存在 对抗、竞争或合作关系,单个智能体可通过信息交互与友方 进行协调配合,一同对抗敌对智能体。由于每个智能体均 能够自主学习,多智能体系统通常表现出涌现性能力。当 前,多智能体系统模型常用于描述共享环境下多个具有感 知、计算、推理和行动能力的自主个体组成的集合,典型应 用包括各类机器博弈、拍卖、在线平台交易、资源分配(路由 包、服务器分配)、机器人足球、无线网络、多方协商、多机器 人灾难救援、自动驾驶和无人集群对抗等。其中,基于机器 博弈(计算机博弈)的人机对抗,作为图灵测试的典型范 式[6],是研究人工智能的果蝇[7]。多智能体系统被广泛用 于解决分布式决策优化问题,其成功的关键是高效的多智 能体学习方法。多智能体学习主要研究由多个自主个体组 成的多智能体系统如何通过学习探索、利用经验提升自身 性能的过程[8]。如何通过博弈策略学习提高多智能体系统 的自主推理与决策能力是人工智能和博弈论领域面临的前 沿挑战。

成为VIP会员查看完整内容
76

相关内容

融合先验知识的异构多智能体强化学习算法研究
引入反事实基线的无人机集群对抗博弈方法
专知会员服务
52+阅读 · 3月13日
下一代战略博弈推演系统研究
专知会员服务
92+阅读 · 1月27日
神经网络架构搜索研究进展与展望
专知会员服务
48+阅读 · 2023年12月21日
基于课程学习的深度强化学习研究综述
专知会员服务
57+阅读 · 2022年11月28日
城市大脑知识图谱构建及应用研究
专知会员服务
71+阅读 · 2022年6月28日
面向任务型的对话系统研究进展
专知会员服务
57+阅读 · 2021年11月17日
专知会员服务
26+阅读 · 2021年8月24日
专知会员服务
61+阅读 · 2021年4月22日
深度学习可解释性研究进展
专知会员服务
97+阅读 · 2020年6月26日
「基于通信的多智能体强化学习」 进展综述
兵棋推演的智能决策技术与挑战
专知
24+阅读 · 2022年7月5日
图像修复研究进展综述
专知
18+阅读 · 2021年3月9日
多模态情绪识别研究综述
专知
22+阅读 · 2020年12月21日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
时空序列预测方法综述
专知
20+阅读 · 2020年10月19日
基于图神经网络的知识图谱研究进展
AI科技评论
20+阅读 · 2020年8月31日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
融合先验知识的异构多智能体强化学习算法研究
引入反事实基线的无人机集群对抗博弈方法
专知会员服务
52+阅读 · 3月13日
下一代战略博弈推演系统研究
专知会员服务
92+阅读 · 1月27日
神经网络架构搜索研究进展与展望
专知会员服务
48+阅读 · 2023年12月21日
基于课程学习的深度强化学习研究综述
专知会员服务
57+阅读 · 2022年11月28日
城市大脑知识图谱构建及应用研究
专知会员服务
71+阅读 · 2022年6月28日
面向任务型的对话系统研究进展
专知会员服务
57+阅读 · 2021年11月17日
专知会员服务
26+阅读 · 2021年8月24日
专知会员服务
61+阅读 · 2021年4月22日
深度学习可解释性研究进展
专知会员服务
97+阅读 · 2020年6月26日
相关资讯
「基于通信的多智能体强化学习」 进展综述
兵棋推演的智能决策技术与挑战
专知
24+阅读 · 2022年7月5日
图像修复研究进展综述
专知
18+阅读 · 2021年3月9日
多模态情绪识别研究综述
专知
22+阅读 · 2020年12月21日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
时空序列预测方法综述
专知
20+阅读 · 2020年10月19日
基于图神经网络的知识图谱研究进展
AI科技评论
20+阅读 · 2020年8月31日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员