【科普】吴飞教授：《走进人工智能》---第7讲阿尔法家族博弈战：从完全信息到非完全信息

2022 年 4 月 6 日 中国图象图形学学会CSIG

由高等教育出版社、高等教育电子音像出版社出品，浙江大学上海高等研究院联合上海人工智能实验室智能教育中心共同打造了原创人工智能前沿科普有声通识数字栏目——《走进人工智能》，主理人为浙江大学上海高等研究院常务副院长，浙江大学人工智能研究所所长、中国图象图形学学会理事、动画与数字娱乐专业委员会副主任 吴飞教授 ，本栏目已在喜马拉雅平台正式上线。

本期内容为《走进人工智能》：第7讲阿尔法家族博弈战：从完全信息到非完全信息

《走进人工智能》

第7讲

从最优解到均衡解：博弈论拥抱人工智能

阿尔法家族博弈战：从完全信息到非完全信息

从20世纪90年代开始，算法博弈论成为计算机科学家主要的研究课题。算法博弈论可应用于完全信息下的博弈对抗，也可应用于非完全信息博弈，下面我们分别介绍。

阿尔法狗（AlphaGo）是完全信息下进行围棋博弈的一种算法。一切棋类理论上可以构建一个包含了所有可能走法和后果的集合，依靠强大、精确的计算能力算出胜率，选择胜率较大的走法来完成对抗。相对于其它棋类竞智游戏而言，围棋需要克服的挑战在于对弈走法可选择空间非常庞大，所包含的可能走法比宇宙所有原子总和还多。谷歌公司为了训练阿尔法狗，收集了5段至9段人类选手所对弈完成的16万盘棋局（约3000多万局面），然后进一步利用算法自我博弈产生的海量“机器棋局“，训练得到于2016年3月战胜李世石的人工智能围棋程序，这一人工智能围棋程序可分别完成“决策下一步落子”、“评估当前棋面胜负概率”和“仿真棋局未来走子”等任务。

相对于完全信息的博弈，非完全信息下的博弈更加符合现实场景要求。在非完全信息博弈中，参与博弈各方无法完全知晓对手全部信息，仅能根据部分已知的信息进行决策，如扑克就是一种非完全信息博弈。2018年，卡耐基梅隆大学研制的人工智能算法Libratus首次在双人德州扑克中击败人类选手，随后在多人德州扑克中也获得胜利。该算法使用一种被称为“虚拟遗憾值最小化”的机制来提升博弈能力。在训练中，通过“虚拟仿真”方法来模拟打牌，计算每一步出牌所对应的得失，依据“遗憾值最小原则”来决定后续出牌，充分体现了“落子无悔”的真谛。

与德州扑克相比，星际争霸这一即时战略游戏对博弈算法提出了更高要求。2019年1月，人工智能模型“阿尔法星际”（AlphaStar）在星际争霸中首次战胜人类玩家，实现了智能体游戏博弈领域重大突破。在“阿尔法星际”训练中，研究人员将不同游戏策略组合起来，最终训练得到了一个达到纳什均衡状态的最强组合。

2020年8月，美国国防高级研究计划局（DARPA）举行了“阿尔法狗斗”（AlphaDogfight）比赛，人工智能算法在近一年时间内经过40亿次左右的训练后，拥有了相当于30年的F-16战机驾驶与格斗经验，以5比0战胜了人类精英飞行员。

小结

“阿尔法（Alpha）”是希腊语中的第一个字母，有起源、开端的意思。博弈论拥抱人工智能，推动人工智能从感知智能向决策智能转变，这一转变使人工智能从追求最优解向探索均衡解迈进。东汉马融在《围棋赋》中说：“三尺之局兮，为战斗场”，从战争中学习战争是博弈水平不断提高的关键要素。在这一过程中，智能算法不断与外部环境交互，根据所得到的奖励或惩罚等反馈信息持续改进博弈策略。人工智能和博弈论的结合依旧是未来解决复杂现实问题的一个重要研究方向。以上是这一讲的全部内容，下一讲将介绍“从个体智能到群体智能：整体大于部分总和”。

产品名称：走进人工智能∣有声通识十五讲

主理人：吴飞

出品机构：高等教育出版社、高等教育电子音像出版社

合作机构：浙江大学上海高等研究院、上海人工智能实验室智能教育中心

出品时间：2022年1月

关于开展2022年“最美科技工作者”学习宣传活动的通知

中国图象图形学学会高校志愿者招募

中国图象图形学学会关于组织开展科技成果鉴定的通知

2022年CSIG图像图形中国行承办方征集中

登录查看更多

相关内容

吴飞

关注 1

吴飞，浙江大学上海高等研究院、常务副院长、求是特聘教授、国家杰青获得者、浙江大学人工智能研究所所长；科技部重点研发计划项目负责人，主持国家自然科学基金重点项目2项。主要研究领域为人工智能、多媒体分析与检索和统计学习理论。入选“高校计算机专业优秀教师奖励计划”，曾获宝钢优秀教师奖。中国工程院院刊Engineering信息与电子工程学科执行主编。著有《人工智能导论：模型与算法》，开设国家级首批一流线上课程《人工智能：模型与算法》。

【UC伯克利-清华】隐式图神经网络

专知会员服务

24+阅读 · 2020年9月15日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【教程推荐】中科大刘淇教授-数据挖掘基础，刘淇

专知会员服务

82+阅读 · 2020年3月4日

从信息社会迈向智能社会—北京大学高文院士、黄铁军教授

专知会员服务

47+阅读 · 2020年2月20日