新智元编译
来源: wired.com
作者:Nick Stockton
编译: 熊笑
【新智元导读】一家名为 Vicarious 的初创公司开发出了一个新的具有突破意义的 AI,名为“图式网络”(Schema Network)。这一网络被用来和 DeepMind 战无不胜的 AlphaGO 的深度强化学习网络作比较。一方认为,图式网络真正学习了游戏的概念,场景适应性更强,“更接近人类思考”;另一方则认为该图示网络需要在和 AlphaGo 的对决中证明自己,且无法应用于实际,“用视频游戏测试致力于驱动机器人的 AI 远远不够”。而无论是 Vicarious 还是 DeepMind,都在朝着远高于攻克游戏的目标迈进。
幸运啊,AI 还玩不了身体接触类的运动,至少现在还不行。目前,算法赢的主要还是一些老的 Atari 游戏,或完成一些历史久远的棋盘游戏。不过这些都只是热身,可以理解成是在用游戏教机器人以更复杂、实用的方式适应人类环境。
在那之前,多玩一些 Atari 游戏是非常必要的。机器人需要这样的“练习轮”。一家名为 Vicarious 的初创公司开发出了一个新的具有突破意义的 AI,名为“图式网络”(SchemaNetwork)。它在经典游戏“打砖块”(Breakout)中表现良好,即使对游戏进行了调整,例如把球拍移动到砖块附近,也依然成功。Vicarious 表示,图式网络胜过现有的游戏 AI。但有些专家并不信服。他们说,为了真正证明其成功,图式网络必须在世界上最好的游戏 AI 面前证明自己。当然,他们说的是 DeepMind 的AlphaGo。
就财力而言,Vicarious 确实是这一领域的实力选手。该公司从个人投资者那里筹集了 7000 多万美元。但是,除了在 2013 年首次亮相以外,Vacarious 还没有在 AI 领域掀起波涛。此外,它宣布已经破解了图像验证码(Captcha),但并没有发表过任何经过同行评议的研究。事实上,与其他 AI 研究以机构相比,该公司迄今为止的论文发布数量相当少,而已经发表的论文被其他研究者引用的次数也不多。
诚然,论文引用仅仅是衡量影响的方法之一。作为一家私营公司,Vicarious 没有义务分享他们的研究成果。此外,他们的投资者认同他们的价值,这些投资者可并不愚蠢。
那么究竟他们在做什么?问 Vicarious 的人,他们说他们无意与 DeepMind竞争。问评论家,他们则指出该公司最近的论文中的图式网络正是被设定为与 DeepMind 在过去几年征服 Atari 游戏所用的同一级别的 AI 竞争。无论他们承认与否,他们显然在向着同一个方向努力。
AlphaGo 使 DeepMind 名声大噪。但是在这家设在伦敦的公司创造出的神经网络掌握人类历史上最古老的游戏之前,它必须先攻克 Atari 的游戏。如“打砖块”(Breakout)之类的游戏对人而言非常易懂:移动球拍,击球,打掉砖块。但是对于计算机而言,那些形状和颜色都混乱而无意义。DeepMind 通过一种称之为深度强化学习(deep reinforcement learning)的方式解决了这一问题。
正如在 Arxiv 上发表的一篇论文中描述的那样,DeepMind 通过获取游戏的原始图像来体验游戏。AI 连续读取三帧,如果这三帧中的像素勾画出一个击中部分砖块的球,这个深度强化学习网络将其在游戏中的得分用作反馈机制,给予那几帧正反馈。AI 会向左、向右移动球拍,也会弹出球,但它意识不到它可以做到这些。它只知道它可以发出这三个命令,有时这些命令之一与正反馈的帧序列相关联。随着时间的推移,它越来越擅长这项游戏。在人类看来,似乎技术学会了前后移动球拍、击球及得分。这比使用蛮力强,但是仍缺乏逻辑推理。
这些突破已经足以为 DeepMind 赢得 AI 领域里的认可。在征服 Atari 游戏后不久,DeepMind把注意力转向了比街机游戏古老和复杂得多的围棋,使用同样的算法,AlphaGo于2016年3月击败世界排名前列的围棋大师李世石,取得历史性的胜利。
现在,Player 2 加入了游戏。
AlphaGo 的学习成就令人惊叹。但它与能够提炼概念并举一反三的人类智能仍相距甚远。Vicarious 的联合创始人之一,Scott Phoenix 博士说:“让 AI 像你我一样思考,它们需要向能够重复使用概念、理解因果的模型发展”。在他看来,深度强化学习网络的问题就在于它们是从试验和误差中学习。另一个局限就是它们一次性对一整帧的像素打分。这意味着操作环境的微小调整,如将球拍移动到砖块附近,或者改变屏幕上色块的亮度,都会导致学习效果巨大的退步。这也意味着它们总是在作出反应,但永远不会设定目标及制订计划。
这并不是说样的一个系统就不会出其不意。在去年三月 AlphaGo 与李世石的第二场对决中,它下出的一步棋令身为围棋大师的对手陷入混乱十五分钟之久。但这也并不说明 AlphaGo 是在遵循精心谋划的策略,它仅仅是走出了它的神经网络基于当时棋盘上的局势推导出的最高回报的一步棋。
与之相比,Vicarious 的图式网络,至少在 Phoenix 看来,更接近人类思考,他描述道:“它开始学习的时候像孩子一样,做一些尝试,然后看看会发生什么”。它学习物体,球拍、球和砖块,以及它们如何移动和互动。它计算球每次撞击到球拍后飞离情况的概率,并根据概率移动球拍到最佳位置。它不仅是在打砖块,还是在以最高效的方式通关。
在他们的论文中,Phoenix 和他的合著者对比了图式网络和深度强化学习网络在“打砖块“游戏中的表现。图式网络不仅在标准的“打砖块”游戏中得分更高,在 Vicarious 团队切换场景后适应得也更快。在其中一个场景中,他们把球拍移动到更靠近砖块的位置;又在另一个场景中在球拍和砖块之间添加了一个无法击碎的障碍物;他们甚至完全去掉砖块,让球拍同时耍三个球。在每一个场景中,图示网络都取得了比深度强化学习网络最好的成绩更高的分数。
Phoenix解释道:“图式网络真正学习了游戏的概念。球碰到球拍时会发生什么?图示网络学习了这一概念,并将其泛化及应用于它从未被训练过的其他不同环境下。”这一过程更类似于人类学习的过程,我们不是逐一分别学习每一个游戏的玩法,而是把已经学习到的内容重复应用。
当然,他们的目标并不是创造顶级的 AI 游戏玩家。AI 公司 Skymind 的CEO及联合创始人Chris Nicholson 认为:“使用视频游戏来训练 AI 完全是因为视频游戏是一系列数字化的体验”。游戏提供了有限范围内的体验,以及简单的奖励机制-得分。“可以说赢得视频游戏就是为了向更复杂的视觉领域进军。”Nicholson 说。DeepMind 和 Vicarious 在这方面都野心勃勃。
近期在悉尼举办的2017 ICML 会议上 Vicarious 发布了他们的论文。在被会议接受之前,这篇论文经历了同行的评审。但 Nicholson 等人并不认同其中描述的是一种革命性的 AI。Nicholson 谈到:“我本来以为文中能提出这个 AI 攻克了多种版本‘打砖块’游戏的证明”。但在他看来,这个 AI 与真正意义上的通用 AI 相距甚远。他将这篇论文与 DeepMind 2013年在 Arxiv 提交的论文相比较,那篇论文中详尽描述了 AI 如何学会了七种不同的 Atari 的游戏,之后攻克了二十多种经典的街机游戏。
在其附带的 ICML 演示文稿中,Vicarious 提到图式网络学习的另外两个游戏:“太空侵略者”(Space Invader)和“推箱子”(Sokoban),一种复杂的益智游戏。这篇博客,虽并非同行评议,详尽描述了图式网络如何在其他场景胜过深度强化学习。
但是那些场景并非 AI 的主战场。西雅图艾伦人工智能研究所(Allen Institutefor Artificial Intelligence)的 CEO Oren Etzioni认为,用视频游戏测试致力于驱动机器人的AI 远远不够。他谈到:“在 Atari 的游戏里你可以观察到游戏的整个场景,当你只能观察到部分场景时同样的方法是否还适用?很可能不行”。他谈到:“例如,在一间公寓里操作的机器人是看不到整个公寓的”。他认为更好的测试场景将是将该图式网络置于他和他的同事开发设计的模拟室内环境 A12-THOR(http://vuchallenge.org/thor.html)。更宽泛地说,他认为该图式网络无法应用于实际,并且批评这篇论文里满是毫无根据的如“直觉物理学”(intuitive physics)这类的时髦词儿。Etzioni 评论道:“除了模拟那个游戏里球的碰撞,他们半点儿物理学都没搞”。
Nicholson 也对 Vicarious 关于该图式网络的结论持怀疑态度,我问他,他如何能被说服 Vicarious 取得了 AI 的进一步突破。他直言道:“我想看到它打败 AlphaGo”。悲哉,DeepMind 此前刚宣布他们将进军更广阔的领域。当然,Nicholson 也没准儿能心想事成。DeepMind 和 Vicarious 都在致力于机器人 AI 大脑的研究。等着到双方成果问世的那一天见证他们的全面对决吧。
原文地址:https://www.wired.com/story/vicarious-schema-networks-artificial-intelligence-atari-demo/