为什么纸牌游戏Hanabi是人工智能的下一个挑战?

2019 年 4 月 9 日 大数据文摘

大数据文摘出品

编译:李雷


人工智能(AI)已经称霸了不少世界上最复杂的游戏,击败了国际象棋、围棋、甚至是星际争霸II等即时战略电脑游戏中的顶级玩家,但其软肋却是一些看似简单的游戏,一些需要具备沟通和合作能力的游戏。


这一情况可能即将发生改变。



谷歌母公司Alphabet的谷歌大脑项目和DeepMind的研究人员开发了曾在围棋和星际争霸II中击败人类的AI程序,现在他们将目光投向了一款新游戏:Hanabi(花火),一种玩家互相合作的纸牌游戏。这款游戏根据玩家在比赛中的沟通情况来确定每个人是赢还是输。


参与该项目的研究人员认为,弄清楚怎样玩好Hanabi,这对于人工智能来说可能是一个重大进步,并且有助于其在聊天和自动驾驶等应用场景中与人类进行更加流畅的互动。


“在日常生活中,人们一般不会相互竞争,而更多的是进行沟通和合作,”牛津大学研究员Jakob Foerster说,他在2月份合作发表了一篇相关论文。他还说,“Hanabi是一个关于沟通和合作的游戏,人工智能目前还没有深入这一游戏领域”。


游戏提示



Hanabi游戏发明于2010年,由二到五个玩家参与,玩家需以正确的顺序一起打出五种不同颜色的牌。游戏特点:所有玩家都可以看到对方的牌,但却看不到自己的牌。


根据游戏规则,玩家可以互相提示自己手里的牌(但仅限于牌的颜色或数字),让其他玩家可以推断他们应该出什么牌,但提示的次数是有限制的。


正是这种高效沟通的行为使Hanabi具备了一种科学魅力。例如,人类可以很自然地理解其他玩家的提示,哪张卡片是可出的,但是机器本质上无法理解这些提示。


Nolan Bard是DeepMind项目的研究员,也是上面提到的论文的合作作者。他认为,“这些合作式的游戏各不相同且难度很大,因为为了玩好游戏,你需要与所有玩家进行协作,共同就某种游戏方式达成一致。


到目前为止人工智能程序已经可以在玩Hanabi花火游戏时赢得很高分数,但只限于与其他类似的智能机器人一起玩。在不熟悉其他玩家的游戏风格或者有 “临时”(从未一起玩过的)玩家的情况下,对程序的挑战最大,也更接近真实情况。


假设和推论



根据研究人员的说法,人类在不断构建一种关于他人的“心理认知”,即假设其他人像我们一样思考和行动,并以此为基础预测其行为。例如,当有人站在街角时,路过的司机会认为她正在考虑过马路。


研究人员认为,在人工智能中植入这样的认知能力可以改善自动驾驶车辆在遇到新情况时的行为方式,使其能够明白人们的行为背后意味着他们可能想做什么。例如,智能机器人可以学习并理解对话中的语境,以便推断说话者的想法。


为了阐明人工智能目前还缺乏这种能力,Bard博士使用一台已经训练好的计算机来玩石头剪刀布游戏。计算机出石头、剪子和布的次数将相同,并预计有一半的机会会赢。



但是如果其人类对手每次都出同样的手势,那么标准的算法就无法理解人类对手的想法,并据此转变其策略。Bard说,计算机要在玩了10回后才会意识到人类总是出石头而它应该出布。


在其他游戏方面,人工智能程序在桥牌游戏中已经取得了进展,但还不是玩得很好,部分原因在于人工智能还需要沟通技能。许多纸牌类游戏都存在类似的问题,机器很难分辨玩家行为背后所隐含的信息。


位于旧金山的OpenAI是由诸多硅谷大亨联合建立的人工智能非营利组织,其工程师Jeff Wu开发了一种智能机器人,用一种称为“猜帽子”的策略来玩Hanabi。这种策略以复杂的方式向其他玩家给出提示,告诉这些玩家哪些牌可以打。


注:“猜帽子”这个名字取自一个流行的逻辑训练,即一群人试图猜测他们每个人头顶帽子的颜色。


尽管Wu的机器人在玩Hanabi时分数很高,但他认为要使Hanabi机器人拥有可以和未知对手合作的认知能力仍然是一个巨大的挑战。


“在玩猜帽子时,机器人没有认知能力,它们心中只有自我以及其副本的概念,如果你只是自己跟自己玩,这是可以的,”Wu说。“但如果你试图开发一个真正具有心理认知能力的机器人,并且它可以明白其他人在思考和做什么,那将是个大挑战。”


DeepMind的Hanabi研究小组创建了一个开源平台,人们可以在其上测试相关的人工智能程序和算法,但小组成员并不期待很快能找到解决方案。Foerster博士说,如果只花了五年的时间就可以使人工智能具备能力和未知玩家进行游戏,他觉得不靠谱。


尽管如此,纽约大学副教授Julian Togelius表示,像Hanabi这样的游戏是创新的沃土。“随着其不断发展,游戏设计已经成为人类智力能力发展的持续反映,”他说。“如果存在某种形式的人工智能场景,那么就会有人适时地设计出一种能够运用这种场景的游戏。”


相关报道:

https://www.wsj.com/articles/why-the-card-game-hanabi-is-the-next-big-hurdle-for-artificial-intelligence-11553875351



实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn


志愿者介绍

后台回复志愿者”加入我们

点「在看」的人都变好看了哦
登录查看更多
0

相关内容

Jakob Foerster是Facebook人工智能研究科学家,研究兴趣是深度学习,多智能体,强化学习,博弈论。
《强化学习》简介小册,24页pdf
专知会员服务
270+阅读 · 2020年4月19日
Gartner:2020年十大战略性技术趋势, 47页pdf
专知会员服务
76+阅读 · 2020年3月10日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
IBM《人工智能白皮书》(2019版),12页PDF,IBM编
专知会员服务
20+阅读 · 2019年11月8日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
201+阅读 · 2019年9月30日
Gartner 报告:人工智能的现状与未来
InfoQ
14+阅读 · 2019年11月29日
AI 最大的挑战:也许我们从根上就错了
InfoQ
5+阅读 · 2019年6月14日
时代聚焦AI安全——可解释性
云栖社区
9+阅读 · 2018年1月21日
为什么说自然语言处理是AI皇冠上的明珠
算法与数据结构
5+阅读 · 2017年12月5日
AI都干过什么让人细思极恐的事?
全球创新论坛
4+阅读 · 2017年9月15日
Arxiv
14+阅读 · 2020年1月27日
Arxiv
136+阅读 · 2018年10月8日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关资讯
相关论文
Arxiv
14+阅读 · 2020年1月27日
Arxiv
136+阅读 · 2018年10月8日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员