前不久,中国兵棋AI“先知”大胜人类。AlphaGo会下围棋,但“先知”真正能在战斗谋划及灾害应等领域发挥作用。幕后团队详解。 |
文/记者 赵天宇 通讯员/刘勇进
编辑/吉菁菁 新媒体编辑/房永珍
“既然国际象棋领域能够诞生深蓝,围棋领域能够诞生AlphaGo,那么更复杂更灵活更加不透明的不完全信息博弈对抗,也一定会产生出超越人类最高水平的人工智能体!我们的先知系统,就是在挑战AlphaGO尚不能完成的工作!”在中科院自动化研究所自动化大厦办公楼里,中科院自动化所研究员、“CASIA-先知V1.0”(以下简称先知系统)研发团队成员刘禹博士告诉记者,在不完全信息博弈对抗领域,运用人工智能最新成果开发的数据与知识混合驱动的先知系统,已经迈出了坚实的第一步。
今年9月,在石家庄举行的2017全国首届兵棋推演大赛上,由中科院自动化所研制的人工智能程序“CASIA-先知V1.0”在“赛诸葛”兵棋推演人机大战中与全国决赛阶段军队个人赛4强和地方个人赛4强的8名选手激烈交锋,并最终以7:1的战绩大胜人类选手,展示了人工智能技术在博弈对抗领域的强大实力。
▲先知研发团队成员,中国科学院自动化研究所研究员刘禹博士
什么是兵棋?博弈对抗领域包括哪些内容?运用人工智能的博弈对抗领域,可以为我们的生产生活带来哪些质的改变?近日,北京科技报记者来到了中科院自动化研究所,采访了先知研发团队刘禹研究员,深入了解了兵棋博弈和先知系统研发背后的故事。
◆ ◆ ◆
兵棋是真实战争的推演和预算
子墨子解带为城,以牒为械,公输盘九设攻城之机变,子墨子九距之。公输盘之攻械尽,子墨子之守圉有余。
这是《墨子·公输》中的选段,讲的正是墨子和鲁班之间进行了一次“模拟攻防战”——墨子解下腰带,围作一座城的样子,用小木片作为守备的器械。鲁班多次陈设攻城用的机巧多变的器械,墨子多次抵拒了他的进攻。鲁班攻战用的器械用尽了,但墨子的守御战术还绰绰有余,最终墨子赢得了这场“战争”的胜利,也迫使楚怀王放弃了攻打宋国的计划。
所谓兵棋,指的是模拟战争攻防的一种竞技博弈。墨子和鲁班的模拟攻防战,就是一场十分完备的兵棋比赛。现代的兵棋最早起源于欧洲普鲁士,发明最初是为宫廷贵族打发无聊时间而设计的“宫廷游戏”,但经过百年的发展,特别是两次世界大战的推动,兵棋逐渐从模拟真实战争、战略部署逐渐转向论证设计武器系统和分析军事战略。
由于能够最真实的模拟战场环境,为部队战争进行科学决策,兵棋推演在现代战争中正发挥着越来越大的作用。据了解,美国发动的阿富汗和伊拉克战争,此前都通过兵棋进行了多次推演,推演的目的是设想足够的情况和预案,以期最大限度减少伤亡。而推演的结果与实战结果无限接近。
▲由于能够最真实的模拟战场环境,为部队战争进行科学决策,兵棋推演在现代战争中正发挥着越来越大的作用
“爱玩游戏的人对兵棋一定不会陌生,它和《星际争霸》《文明》《钢铁雄心》甚至早年的《三国志》都属于博弈对抗类型的游戏。”刘禹告诉记者,与回合制的围棋、象棋不同,兵棋最大的特点在于它存在着一套开放的、可以学习和研讨的规则——看不清对方的位置,不可知对方的战术,甚至用六边形棋盘可以铺满整个地球。“前20分钟连敌人的影子都没见到,最后5分钟被‘神兵天降’淘汰”的例子在兵棋中并不少见。
刘禹表示,自动化所研制的先知系统,正是基于兵棋这种挑战性更高的博弈对抗而设计开发的,“和人类相比,这套运用人工智能的系统,能够更加快速准确的进行态势判断和战略决策,并最大程度的减少错误的发生。”
◆ ◆ ◆
用人工智能方案辅助决策
刘禹告诉记者,一套完整的兵棋推演比赛,一般分为四个步骤,即态势分析、(作战)方案生成、仿真推演和赛后复盘四个部分。正所谓“内行看门道,外行看热闹”,虽然普通观众更关注“硝烟弥漫”的战争阶段,但资深玩家更看重的却是战前的态势分析以及生成作战方案的过程,甚至在大型的兵棋推演中,前两个步骤就会占到整个比赛时间的50%以上。
▲现代兵棋推演19世纪中期就出现了,德国的Kriegsspiele(就是战争游戏的意思)是在地图上进行推演的,这种简单的方式现在还很流行。一本手册,一张地图,若干算子,就可以开始了。不过规则往往很复杂,比如移动时就要考虑各种地形、部队本身属性(步行单位、车辆单位)、天气等。很多现代兵棋推演的计算更为复杂,因此往往通过计算机完成。(图片来自网络)
因此,人工智能在兵棋推演中,主要可以发挥三个方面作用:一是战前分析态势,科学的分析敌我双方的真实实力;二是方案筹划,综合考虑多维度信息科学化制定作战方案,减少我军伤亡,加大对敌军打击效果;三是提高作战过程中的实时决策能力,面对突发情况迅速给出合理的方案。
▲台湾当局每年都利用兵棋推演平台进行所谓的“汉光兵棋推演”,模拟解放军入台作战的过程,用以“提升防卫作战效能”,图为汉光兵棋推演沙盘图(兵棋台)。(图片来自网络)
在人机博弈这个领域,近20年来已经产生了3个里程碑式的事件:1997年IBM公司的“深蓝”击败国际象棋大师卡斯帕罗夫,这是基于知识规则引擎和强大计算机硬件的人工智能系统的胜利;2011年同样是IBM公司的问答机器人“沃森”在美国智力问答竞赛节目中大胜人类冠军,这是基于自然语言理解和知识图谱的人工智能系统的胜利;第三次就是2016年的AlphaGo与李世石的围棋大战,AlphaGo最终以4:1的战绩战胜李世石,这是基于蒙特卡洛树搜索和深度学习的人工智能系统的胜利。
刘禹认为,人工智能成功攻克了国际象棋和围棋,下一个人机大战的挑战,就是不完全信息下的动态博弈和实时对抗。记者了解到,所谓不完全信息,就是指参与人并不完全清楚有关博弈对手的信息情报。如果在一场博弈中,参与者同时行动且至少有一个参与者不完全知道其他参与者收益,这种博弈就称之为不完全信息动态博弈。象棋、围棋属于完全信息博弈,而兵棋、桥牌等就属于不完全信息博弈。
◆ ◆ ◆
从兴趣小组到多实验室合作研发
今年的政府工作报告和十九大报告中都提到了人工智能,国务院《新一代人工智能发展规划》明确了我国人工智能的战略发展部署。当前,人工智能愈发火热。“AI”对于许多人来说或许还相对陌生,但自动化所在这个领域已经与“人工智能”同步历经了60多年的发展。在AlphaGo之后,自动化所的一批年轻人开始自发组织兴趣群讨论,寻找人工智能在博弈领域的新的突破口,挑战不完全信息动态博弈难题。
万事开头难,先知系统研发团队的发展,也经历了一个从小到大,从无到有的过程。刚开始的时候,大家只是对最新技术进展进行交流和点评,也存在着一些不同的观点。去年12月,“人机协同环境下不完全信息对抗博弈”命题吸引了大家共同的目光,也引发出大家共同研发AI系统的梦想。
▲今年9月举行的赛诸葛全国兵棋推演大赛上,人工智能在兵棋领域首次战胜人类,图为先知研发团队部分人员合影
刘禹说,现在自动化所“智能人机对抗团队”由模式识别国家重点实验室、复杂系统管理与控制国家重点实验室、综合信息系统研究中心相关成员组成,整个团队年轻而富有活力,平均年龄约35岁。在他们中,范国梁研究员来自综合信息系统研究中心,带领小分队主攻兵棋AI系统;来自模式识别国家重点实验室的兴军亮副研究员则带领另一路小分队,重点突击星际争霸AI系统。
团队成立以后,仅用半年时间,就在态势感知和作战决策模块上采用知识规则+不确定推理的方式实现了先知1.0程序开发。刘禹告诉记者,除了赛诸葛全国兵棋推演大赛上取得佳绩,在今年9月举行的2017星际争霸AI大赛上,来自自动化所的人工智能团队也获得了第四名的成绩,而来自美国的“重磅”参赛选手Facebook在此次比赛中名列第六。牛刀小试就取得了不错的成绩,让团队成员们倍感鼓舞。
自动化所杨一平副所长在兵棋大赛结束时对团队成员叮嘱,“今天的成绩并不是结束,而是一个新的起点。人工智能系统所展现出的巨大应用潜力,以及兵棋推演背后的方法学和思维方式,才是我们不断追求的目标!”刘禹表示,先知系统的最终发展目标是决策与学习能力更强、更快的通用人工智能技术,而这或许将是一个持续数年的中长期任务。
◆ ◆ ◆
博弈问题在现实中广泛存在
实际上,棋类竞技中的博弈对抗问题,现实生活中其实广泛的存在于我们生活中,尤其是博弈问题,广泛存在于军事、商业、安防、灾害应急等领域,大到影响国家战略,小到决定有限资源下的个人竞争。博弈对抗技术已经成为许多领域的标准分析工具之一,在证券学、生物学、国际关系、政治学和其他很多学科都有广泛的应用。
“比如说在防灾减灾领域,某个地区发生了大面积的洪涝灾害,救灾的时候,我们应该把食品帐篷先运送到哪个地方去,把部队和医生先往哪里派,这里面都涉及有限资源和不完全信息下的博弈问题。而如果再考虑气象因素、交通因素、实际效果等诸多参数的话,就会变成一个非常复杂的决策问题。随着人工智能的应用与成熟,这些问题将得到极大的改善。”
▲在计算机上显示的兵棋推演比赛示意图
刘禹解释说,人机协同环境下不完全信息博弈对抗这个命题可以拆分出三个关键词,第一是人机协同,第二是不完全信息,第三是博弈对抗。这三个词的背后都有大量的关键技术问题需要突破,也有着非常大的应用前景。比如人机协同,强调的是不同角色的参与者如何得到AI的辅助;不完全信息,需要在动态过程中估计和决策,数据中大量存在的噪音使得很难训练深度网络。因此,先知系统只是迈出了第一步,还不能称之为“研发成功”。这一步也只是证明了我们的技术路线是正确的,还有大量的理论研究和技术开发挑战。“这次兵棋推演大赛,唯一战胜先知系统的是一位地方建筑院校的学生,他用以守代攻、小火慢熬的战术从始至终一直占据上风,这说明我们的系统还有进一步提升的空间。”
▲兵棋推演现在也已经推广到了其他领域。美国应用物理实验室(APL)有专门设施进行大规模兵棋推演。2009年,美国国防部曾在APL就金融战争进行了推演,而美国医学界也在APL就流感控制问题进行了推演(图片来自网络)。
“今年的比赛是一对一人机挑战,如果能够在多人协同博弈对抗中引入AI,挑战难度则会更大。”刘禹表示,如果说组织“人机对抗”是为了分析人的经验,那么组织“机机对抗”则可以自我学习生成海量数据,为下一步知识和数据混合驱动的博弈推理学习训练奠定实验基础,并最终为人机协同提供决策依据,实现“人工智能服务于人”的最终目标。(本文原发《科学加 | 北京科技报》2017年11月28日,略有个别文字调整。)
延伸阅读:
2、【消息】2017星际争霸AI大赛结果揭晓,中科院自动化所第4,Facebook第6
3、【消息】2017首届全国兵棋推演大赛全国总决赛新闻发布会在京召开