本期内容为《走进人工智能》:第7讲 阿尔法家族博弈战:从完全信息到非完全信息
《走进人工智能》
阿尔法家族博弈战:从完全信息到非完全信息
从20世纪90年代开始,算法博弈论成为计算机科学家主要的研究课题。算法博弈论可应用于完全信息下的博弈对抗,也可应用于非完全信息博弈,下面我们分别介绍。
阿尔法狗(AlphaGo)是完全信息下进行围棋博弈的一种算法。一切棋类理论上可以构建一个包含了所有可能走法和后果的集合,依靠强大、精确的计算能力算出胜率,选择胜率较大的走法来完成对抗。相对于其它棋类竞智游戏而言,围棋需要克服的挑战在于对弈走法可选择空间非常庞大,所包含的可能走法比宇宙所有原子总和还多。谷歌公司为了训练阿尔法狗,收集了5段至9段人类选手所对弈完成的16万盘棋局(约3000多万局面),然后进一步利用算法自我博弈产生的海量“机器棋局“,训练得到于2016年3月战胜李世石的人工智能围棋程序,这一人工智能围棋程序可分别完成“决策下一步落子”、“评估当前棋面胜负概率”和“仿真棋局未来走子”等任务。
相对于完全信息的博弈,非完全信息下的博弈更加符合现实场景要求。在非完全信息博弈中,参与博弈各方无法完全知晓对手全部信息,仅能根据部分已知的信息进行决策,如扑克就是一种非完全信息博弈。2018年,卡耐基梅隆大学研制的人工智能算法Libratus首次在双人德州扑克中击败人类选手,随后在多人德州扑克中也获得胜利。该算法使用一种被称为“虚拟遗憾值最小化”的机制来提升博弈能力。在训练中,通过“虚拟仿真”方法来模拟打牌,计算每一步出牌所对应的得失,依据“遗憾值最小原则”来决定后续出牌,充分体现了“落子无悔”的真谛。
与德州扑克相比,星际争霸这一即时战略游戏对博弈算法提出了更高要求。2019年1月,人工智能模型“阿尔法星际”(AlphaStar)在星际争霸中首次战胜人类玩家,实现了智能体游戏博弈领域重大突破。在“阿尔法星际”训练中,研究人员将不同游戏策略组合起来,最终训练得到了一个达到纳什均衡状态的最强组合。
2020年8月,美国国防高级研究计划局(DARPA)举行了“阿尔法狗斗”(AlphaDogfight)比赛,人工智能算法在近一年时间内经过40亿次左右的训练后,拥有了相当于30年的F-16战机驾驶与格斗经验,以5比0战胜了人类精英飞行员。
小结
产品名称:走进人工智能∣有声通识十五讲
主理人:吴飞
出品机构:高等教育出版社 、高等教育电子音像出版社
合作机构:浙江大学上海高等研究院、上海人工智能实验室智能教育中心
出品时间:2022年1月