近年来,随着人工智能技术的发展,人机对抗领域取得了一系列突破性的进展,如AlphaGo、Libratus以及AlphaStar分别在围棋、二人无限注德州扑克以及星际争霸2中击败了人类职业选手。然而,当前大部分研究基于传统机器学习方法——以最大化收益/最小化损失为学习目标,将对手视为被动反馈的环境中的一部分,忽略了对手的理性和策略性,导致在非平稳环境中缺乏理论保证,难以处理复杂人机对抗中多个趋利的智能体共同学习、相互对抗的非平稳任务。如何从理论和方法上高效、稳定求解对抗任务中的博弈策略是目前国际上的研究热点和难点。
近期,中科院自动化所智能系统团队提出了面向人机对抗的博弈学习方法,该方法结合博弈论和机器学习,从人机对抗任务出发,充分考虑对手的策略性回应(strategic response),基于博弈论从建模、解概念定义及求解出发设计学习方法,以收敛到智能体的策略均衡为学习目标,并利用机器学习方法帮助形成稳定、高效、可扩展的博弈求解算法。
人机对抗中的博弈学习方法是智能系统团队面向人机对抗智能研究的核心环节,如下图所示,人机对抗智能技术提出了人-机-物三元博弈问题定义,博弈学习方法给出了三元博弈学习的内涵、组成要素和解决复杂人对抗任务的方法步骤,并在典型人机对抗任务如兵棋推演、德州扑克等场景进行验证,以解决复杂人机对抗任务中的关键科学问题。上述研究成果已经发表在中国科学、计算机学报、自动化学报、IEEE Trans. On TOG、AAAI等国内外重要期刊与会议上,探索了博弈智能通往自主进化智能的可行性与路径。
《人机对抗中的博弈学习方法》摘要
近年来,人机对抗智能技术作为人工智能领域的前沿方向取得了一系列突破性的进展,如 AlphaGo和 DeepStack 分别在围棋和二人无限注德州扑克中击败了人类专业选手. 这些突破离不开博弈论和机器学 习的深度结合. 本文通过梳理当前人机对抗智能技术领域的重要工作,深入分析博弈论和机器学习在其中发挥的作用,总结了面向人机对抗任务的博弈学习研究框架,指出博弈论为人机对抗任务提供博弈模型和定义求解目标,机器学习帮助形成稳定高效可扩展的求解算法. 具体地,本文首先介绍了人机对抗中的博弈学习方法的内涵,详细阐述了面向人机对抗任务的博弈学习研究框架,包括博弈模型构建、解概念定义、博弈解计算三个基本步骤,之后利用该框架分析了当前人机对抗智能技术领域的典型进展,最后指出了人机对抗中的博弈学习未来发展可能面临的挑战. 本文梳理总结的人机对抗中的博弈学习研究框架为人机对抗智能技术领域的发展提供了方法保障和技术途径,同时也为通用人工智能的发展提供了新思路.
关键词 人工智能;人机对抗;博弈论;机器学习;博弈学习
周雷,尹奇跃,黄凯奇. “人机对抗中的博弈学习方法”, 计算机学报,2022.