在随后的一个月里,我们陆续收到了许多热情的留言和提问,以及大家给 Suphx 取的千奇百怪的昵称。今天我们挑选了 10 个大家最关心的问题来进行回答。
更多Suphx对局视频,请访问微软Bilibili官方账号“微软中国视频中心”
Q1. 为什么让 AI 学“打麻将”,而不是其他游戏?
麻将不仅历史悠久,在世界范围内都很流行,对不少中国人民来说更是日常生活的一部分。竞技麻将在全球也有很大的发展,去年,麻将成为继围棋、国际象棋、中国象棋、桥牌和西洋跳棋之后的第六项国际智力运动。
从难度上来说,相比信息完整、逻辑性强的象棋、围棋等其他棋类,参与麻将的玩家信息是不对称的,麻将属于非完美信息游戏(imperfect information game),致使麻将在打牌的过程中存在大量隐藏信息,具有高度的不确定性。在这种挑战下,仅靠算力无法根本解决问题,需要更强的直觉、预测、推理、和模糊决策能力。
另一方面,与战略类电子竞技游戏不同,操控键盘的技巧、出招快慢等不会对麻将的胜负产生影响,换言之,选择麻将可以把不必要的、人和机器的差别抹掉,聚焦在智慧、智能的部分。
作为一个研究机构,微软亚洲研究院对于解决难度大、能考察 AI 真正智能的任务有很大的兴趣,所以就很自然的选择了对麻将 AI 进行研究。
Q2. 不同地区的麻将玩法非常多样,比如广东麻将、四川麻将、福建麻将、台湾麻将等等。这些不同的玩法 Suphx 都可以玩吗?还是要针对不同的玩法开发不同的系统?
虽然各种麻将的玩法规则不同,但是对于人工智能来说系统的解法是通用的。Suphx 背后是深度强化学习技术,它对于规则的差异并不敏感。
其实民间麻将更偏娱乐性,天凤平台的麻将规则更偏竞技性。尽管中国的麻将和日本的麻将有一些差别,只要把相应的评价准则嵌入强化学习的流程之中,它就可以自动地学习出好的解决方案。所以从技术方面来讲,针对不同的规则对 AI 系统进行适配后(尤其是实现不同的仿真环境),Suphx 完全可以应付不同类型的麻将游戏。
Q3. Suphx 为什么选择在日本的天凤平台上玩麻将?
天凤是一个国际化的平台,吸引了全球近 33 万名麻将爱好者,其中不乏专业麻将选手,有很多国家的高手在上面比赛竞技,中国也有不少麻将高手在天凤上很活跃。
由于长期在民间广为流传,不同地区的麻将玩法缺乏统一的规则标准和评价体系。天凤具有完善的竞技规则、专业的段位体系,平台成绩受到职业麻将界的广泛承认。天凤平台也提供了很好的专家数据,非常有利于开展麻将 AI 研究。
Q4. Suphx 为什么没有达到最高段位“天凤位”?
十段是所有玩家在天凤平台的“特上房”取得的最高段位,而人类玩家取得“天凤位”(即十一段)的“凤凰房”目前不对 AI 开放。
天凤平台为高水平麻将玩家提供两种竞技房间:“特上房”和“凤凰房”。“特上房”对四段以上所有玩家免费开放,允许 AI 参与游戏,所有玩家在“特上房”取得的最高段位是十段;“凤凰房”仅对七段以上的人类付费玩家开放,目前不允许 AI 参与游戏,在该房间能达到的最高段位是十一段,称为“天凤位”。我们也正与天凤平台方沟通协调,以推动麻将 AI 的研究。
所有到达天凤位的玩家不仅需要极高的游戏水平,同时也需要机遇。目前来看,Suphx 在特上房到达天凤位的期望概率远大于其他人类玩家。
Q5. 和天凤平台上另外两个知名麻将 AI 系统「NAGA25」和「爆打」相比, Suphx 和它们的不同点是什么?
爆打是由原东京大学的 Naoki Mizukami 于2015年开发的 AI 程序。爆打开发得比较早,而且开发者本身就是一个天凤七段的高手,所以爆打的特性很多是根据开发者对麻将的理解设计的,爆打是加上这些理解去设计启发式搜索的算法,但还不算很深度的学习。但他们应该是第一个可以到达天凤七段的 AI。
NAGA25 则是日本 Dwango 公司于 2018 年开发的基于深度学习模型的系统。NAGA25 用了深度学习的一些算法,但并没有用强化学习来提高他们的 AI。
目前,NAGA25 和爆打的稳定段位均为 6.5 左右,Suphx 的稳定段位超过 8.7,领先了 2 个段位以上。
将麻将形式化为机器学习任务不难,难在如何解决这样一个复杂的任务。
例如,确定一个牌面的好坏就非常难。麻将一共有 136 张牌,每个玩家初始手牌有 13 张,其他牌对于一个玩家来说都是未知的,有着非常大的隐藏信息。用博弈论的语言来讲,平均起来,每个可观测状态对应着超过 10^48 个隐藏状态,也就是说,某个玩家只能看到自己的手牌以及所有玩家已经打出来的牌,而看不到的牌可能会有多达 10^48 中不同的可能。因此,玩家看到的信息只是冰山一角,很难仅仅根据他的牌面来判断好坏,有可能他感觉自己的牌面不错,实际上可能有另外一个玩家的牌比他更好,在他前面赢牌。
因此,Suphx 创新性地尝试了先知教练技术来提升强化学习的效果。其基本思想是在自我博弈的训练阶段利用不可见的一些隐藏信息来引导 AI 模型的训练方向,使其学习路径更加清晰、更加接近完美信息意义下的最优路径,从而倒逼 AI 模型更加深入地理解可见信息,从中找到有效的决策依据。
麻将中的复杂策略和带有随机性的博弈过程更贴近人类真实而复杂的生活,AI 在其中的突破将有助于解决现实生活中的复杂问题,如智能交通、金融投资等存在大量未知信息,易于受到随机突发状况影响,并且存在对方博弈的领域。
比如,智能交通中,车辆互相博弈争夺道路资源,但存在司机的因素、路况的因素、天气的因素等等;金融投资中,投资机构和个人相互博弈瓜分金融市场的超额收益,但是存在市场状态的变化、政策的变化、投资人的因素、行业的轮动、舆论的影响、甚至黑天鹅事件的影响等。
麻将 AI 为我们提供了良好的测试环境,让我们去创造应对复杂的非完全信息问题的技巧。从某种意义上讲,我们始于游戏,但绝对不会终于游戏,我们希望能对更大范围的产业产生辐射作用。
Q8. Suphx 后续有开源或者发论文的计划吗?
我们有发论文的计划。Suphx 目前还在迭代进化中,我们希望再给它一些时间来充分学习、不断提高,也希望在整个麻将社区的共同帮助和呵护下,Suphx 可以与麻将社区共同成长。我们会等到一个适合的时机,把所有的技术细节向公众展示。
Q9. Suphx 研究团队有多少成员?在生活中是否也是麻将高手?
大约有 4 名研究人员和 2 名实习生参加了这个项目。有趣的是,团队成员几乎不会玩麻将,都是从研究的视角去打造麻将 AI 的。
Q10. Suphx 出现后,许多微博网友表示「中国大妈请求出战」,未来我们能看到中国大妈与 Suphx“决战机麻之巅”吗?
我们研究麻将 AI 的目的不是为了打败人类,而是希望从中可以探索及扩展人工智能算法的边界,并且提升人工智能在现实环境中解决复杂问题的能力,推动人工智能技术的创新发展。
我们希望 Suphx 有机会向各路高手学习,也期待 Suphx 能够成为众多麻将爱好者的良师益友,为大家带来启发,帮助玩家提升麻将技巧。
你也许还想看:
感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。