近年来,随着人工智能技术的发展,人机对抗领域取得了一系列突破性的进展,如AlphaGo、Libratus以及AlphaStar分别在围棋、二人无限注德州扑克以及星际争霸2中击败了人类职业选手。然而,当前大部分研究基于传统机器学习方法——以最大化收益/最小化损失为学习目标,将对手视为被动反馈的环境中的一部分,忽略了对手的理性和策略性,导致在非平稳环境中缺乏理论保证,难以处理复杂人机对抗中多个趋利的智能体共同学习、相互对抗的非平稳任务。如何从理论和方法上高效、稳定求解对抗任务中的博弈策略是目前国际上的研究热点和难点。

近期,中科院自动化所智能系统团队提出了面向人机对抗的博弈学习方法,该方法结合博弈论和机器学习,从人机对抗任务出发,充分考虑对手的策略性回应(strategic response),基于博弈论从建模、解概念定义及求解出发设计学习方法,以收敛到智能体的策略均衡为学习目标,并利用机器学习方法帮助形成稳定、高效、可扩展的博弈求解算法。

人机对抗中的博弈学习方法是智能系统团队面向人机对抗智能研究的核心环节,如下图所示,人机对抗智能技术提出了人-机-物三元博弈问题定义,博弈学习方法给出了三元博弈学习的内涵、组成要素和解决复杂人对抗任务的方法步骤,并在典型人机对抗任务如兵棋推演、德州扑克等场景进行验证,以解决复杂人机对抗任务中的关键科学问题。上述研究成果已经发表在中国科学、计算机学报、自动化学报、IEEE Trans. On TOG、AAAI等国内外重要期刊与会议上,探索了博弈智能通往自主进化智能的可行性与路径。

《人机对抗中的博弈学习方法》摘要

近年来,人机对抗智能技术作为人工智能领域的前沿方向取得了一系列突破性的进展,如 AlphaGo和 DeepStack 分别在围棋和二人无限注德州扑克中击败了人类专业选手. 这些突破离不开博弈论和机器学 习的深度结合. 本文通过梳理当前人机对抗智能技术领域的重要工作,深入分析博弈论和机器学习在其中发挥的作用,总结了面向人机对抗任务的博弈学习研究框架,指出博弈论为人机对抗任务提供博弈模型和定义求解目标,机器学习帮助形成稳定高效可扩展的求解算法. 具体地,本文首先介绍了人机对抗中的博弈学习方法的内涵,详细阐述了面向人机对抗任务的博弈学习研究框架,包括博弈模型构建、解概念定义、博弈解计算三个基本步骤,之后利用该框架分析了当前人机对抗智能技术领域的典型进展,最后指出了人机对抗中的博弈学习未来发展可能面临的挑战. 本文梳理总结的人机对抗中的博弈学习研究框架为人机对抗智能技术领域的发展提供了方法保障和技术途径,同时也为通用人工智能的发展提供了新思路.

关键词 人工智能;人机对抗;博弈论;机器学习;博弈学习

周雷,尹奇跃,黄凯奇. “人机对抗中的博弈学习方法”, 计算机学报,2022.

成为VIP会员查看完整内容
114

相关内容

专知会员服务
39+阅读 · 2021年7月10日
专知会员服务
187+阅读 · 2021年2月4日
专知会员服务
136+阅读 · 2021年1月13日
专知会员服务
111+阅读 · 2020年12月31日
专知会员服务
183+阅读 · 2020年6月21日
人机对抗智能技术
专知会员服务
201+阅读 · 2020年5月3日
「强化学习可解释性」最新2022综述
极市平台
3+阅读 · 2022年1月20日
人类专业玩家水平!自动化所研发轻量型德州扑克AI程序AlphaHoldem
中国科学院自动化研究所
0+阅读 · 2021年12月10日
更深探索,更优体验!人机对抗智能门户网站上线多项新功能、新版块
中国科学院自动化研究所
0+阅读 · 2021年10月29日
2021届“庙算杯”人机对抗测试赛成功举行!
中国科学院自动化研究所
2+阅读 · 2021年8月9日
直播预告 | 巅峰对决!“庙算杯”人机对抗测试赛8月1日决赛预告
中国科学院自动化研究所
0+阅读 · 2021年7月28日
临机之道,谁能应变?欢迎参加2021“庙算杯”人机对抗测试赛!
中国科学院自动化研究所
2+阅读 · 2021年6月18日
兴军亮Science评述:多人德州扑克博弈新突破
中国科学院自动化研究所
19+阅读 · 2019年7月15日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Challenges for Open-domain Targeted Sentiment Analysis
Arxiv
35+阅读 · 2021年8月2日
Arxiv
92+阅读 · 2021年5月17日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
专知会员服务
39+阅读 · 2021年7月10日
专知会员服务
187+阅读 · 2021年2月4日
专知会员服务
136+阅读 · 2021年1月13日
专知会员服务
111+阅读 · 2020年12月31日
专知会员服务
183+阅读 · 2020年6月21日
人机对抗智能技术
专知会员服务
201+阅读 · 2020年5月3日
相关资讯
「强化学习可解释性」最新2022综述
极市平台
3+阅读 · 2022年1月20日
人类专业玩家水平!自动化所研发轻量型德州扑克AI程序AlphaHoldem
中国科学院自动化研究所
0+阅读 · 2021年12月10日
更深探索,更优体验!人机对抗智能门户网站上线多项新功能、新版块
中国科学院自动化研究所
0+阅读 · 2021年10月29日
2021届“庙算杯”人机对抗测试赛成功举行!
中国科学院自动化研究所
2+阅读 · 2021年8月9日
直播预告 | 巅峰对决!“庙算杯”人机对抗测试赛8月1日决赛预告
中国科学院自动化研究所
0+阅读 · 2021年7月28日
临机之道,谁能应变?欢迎参加2021“庙算杯”人机对抗测试赛!
中国科学院自动化研究所
2+阅读 · 2021年6月18日
兴军亮Science评述:多人德州扑克博弈新突破
中国科学院自动化研究所
19+阅读 · 2019年7月15日
相关基金
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员