新智元报道
来源:thegradient
作者:Gary Marcus 编译:肖琴
“过度的宣传和错误的信息将导致AI寒冬再来”,纽约大学心理学与认知科学教授、畅销书作家加里 · 马库斯 (Gary Marcus) 最近在The Gradient上撰文,批评媒体在报道AI进展时常常倾向于将每一个微小的新进展描述为将从根本上改变我们的世界的巨大的胜利。
这类夸大的报道满足了读者的阅读兴趣,却带来了不容忽视的危害:如果公众、政府和投资界认识到,他们被灌输了关于人工智能的不符合现实的观念,那么新一轮的AI寒冬可能就会开始。
并且,这一切已经有预兆,包括聊天机器人、医疗诊断、假新闻检测器、自动驾驶汽车等等,过度的承诺往往导致了项目本身的死亡。
AI夸大报道泛滥,研究人员默许甚至煽风点火
11月24日,《经济学人》发表了一篇对OpenAI公司的GPT-2句子生成系统的采访,误导性地说GPT-2的答案是“未经编辑的”,而实际上,每一个被发表的答案都是通过连贯和幽默性过滤器从五个选项中选择的。这让公众认为对话式AI已经比实际要近得多。这种印象可能在不经意间被进一步加深,AI领域的权威专家Erik Bryjngjolffson在推特上说,这篇采访“令人印象深刻”,“GPT-2的答案比许多人的回答更连贯”。而事实上,这篇采访令人印象深的的连贯性来自(a)该系统所使用的大量人类文字;(b)人类记者对连贯性的过滤。了解到这一点后,Brynjjolffson发了一则更正,但与本文的主题一致,转发他的原始推文的数量与转发更正的数量是75:1——表明强调AI胜利却具有误导性的新闻要比清醒的消息传播得更快。
OpenAI创建了一个神经网络系统,让机器人学会操纵一个定制的魔方,并通过有误导性的宣传视频和博客让许多人认为该系统已经学会了在认知方面解决魔方,实际并非如此。(相反,除了灵巧性之外,解魔方的计算是通过1992年发明的一种经典的、符号操纵的解魔方算法来完成的,这种算法不是后天习得的)。在这段广为流传的视频中,另一个不那么明显的事实是,这个魔方装有蓝牙传感器,而且即使在最好的情况下,其成功率也只有20%。媒体报道往往忽略了这些细微差别。例如,《华盛顿邮报》报道称,“OpenAI的研究人员表示,他们并没有明确地编程机器来解决这个难题”,而这起码是不清楚的。《华盛顿邮报》随后发表了一则更正——“更正:OpenAI将他们的研究重点放在使用机械手物理操作魔方,而不是解决魔方难题…”——但显然读到这则更正的人远远少于那些阅读了误导性的原始故事的人。
最近,至少有两篇关于神经网络在物理学中的应用的论文被夸大报道了,包括一些著名媒体。两个事件中,解决复杂问题的玩具版本的神经网络被夸大。例如,一篇报道称“神经网络解决了三体问题,比传统方法快1亿倍”,但该网络并没有经典意义上的解决方案,而是进行了近似,并且仅近似了一个高度简化的二阶自由问题(而不是传统的10阶),并且仅限于具有相同质量的物体。最初的误导性报道在网络上广泛传播,随后,Ernest Davis和我本人在Nautilus上写了一篇详细评论受到广泛关注,但以转推量作为粗略的衡量标准的话,阅读原始新闻的人与阅读更冷静的分析的人的比例还是75:1,甚至更悬殊。
在2015年接受《卫报》采访时,被广泛誉为“深度学习教父”的Geoff Hinton热情表示谷歌采用类人智能的机器学习新方法“帮助克服了人工智能的两个主要挑战:掌握自然的对话语言以及实现逻辑跳跃的能力”,并且该公司“即将开发出具有逻辑、自然对话能力的算法”。这篇采访题为“谷歌向开发具有类人智能的机器迈进了一步”,然而四年后,我们距离能够进行自然对话而无需人工干预、确保连贯性的机器还有很长的路要走,也没有现成的系统能够可靠地对物理世界进行推理。大约一年后,Hinton声称,放射科医生就像“已经在悬崖边缘但还没有向下看的狼”,建议“如果你做放射科医生,就像动画片里面的歪心狼怀尔(Wile E. Coyote),你已经在悬崖的边缘了”。他补充说:“我们现在应该停止培训放射科医生。很明显,在五年内,深度学习将比放射科医生做得更好。”Hinton在2017年接受《纽约客》采访时进一步回应了这一说法。与此同时,数百家放射学公司带来了无数种深度学习技术,但到目前为止,还没有真正的放射学家被取代。最好的猜测是,深度学习可以增强放射学家的能力,但不能在短期内取代他们。Hinton的话吓坏了许多放射科的人。后果可能是消极的;目前在世界的许多地方放射科医生都是短缺的。
2016年11月,在《哈佛商业评论》上,另一位深度学习领域的知名人物吴恩达(Andrew Ng)写道:“如果一个普通人用不到一秒钟的时间就能完成一项智力任务,那么我们可能在现在或不久的将来就可以用AI实现这一任务的自动化。”一个更现实的评估是,某件事是否可以自动化在很大程度上取决于问题的性质、可以收集的数据以及两者之间的关系。对于像桌面游戏这样的封闭式问题,可以通过模拟来收集大量的数据,吴恩达的观点已经被证明是有预见性的;但在无法完全模拟的开放式问题中,例如会话理解,吴恩达的观点至少到目前为止被证明是错误的。商业领袖和决策者最好能够了解哪些问题适用于目前的技术,哪些不适用;吴恩达的话掩盖了这一点。
2015年5月,《连线》杂志根据对时任Facebook人工智能研究主管Yann LeCun的采访,报道称“‘深度学习’将很快给我们带来超级智能机器人”。不用说,超级智能机器人还没有到来。正如Pieter Abbeel最近指出的那样,从实验室演示到让机器人在现实世界中表现出智能,还有很长的路要走。
新的AI寒冬早有征兆:聊天机器人、医疗诊断等项目“死亡”
聊天机器人:2015年,Facebook承诺推出一款名为M的系统,将彻底改变智能助理的工作范围。打造他们想要的东西的AI在当时并不存在,但这个项目被认为是一个数据游戏;人类将回答第一批问题,然后深度学习将处理剩下的问题。到2018年,该项目被关闭。总体来说,2015年时人们对聊天机器人的热情很高;现在,人们普遍认为,目前的AI只能处理有限的对话,即使这样也没有完全的可靠性。他们做出了承诺,但没有兑现。
医疗诊断:IBM Watson过度承诺,最终由于令人失望的结果,MD安德森癌症研究所等医疗合作伙伴退出;现在,人们普遍认为,让Watson进行医学诊断的项目是一种过度的承诺。考虑到DeepMind非凡的数据访问能力和庞大的计算和智力资源,许多人一开始都以为它会涉足医疗诊断。但现实情况是,目前也没有什么令人信服的东西出现(DeepMind的医疗部门已经转移到谷歌)。即使在更简单的放射学案例中,它主要是关于感知的而不是关于推理,对自然语言理解的要求更小,将实验室演示付诸实践也被证明是困难的。
假新闻检测器:2018年4月,马克·扎克伯格向国会表示,人工智能将在5到10年内解决Facebook最棘手的问题,包括虚假新闻、仇恨言论、歧视性广告和恐怖主义宣传等。但到今年5月,Facebook首席技术官Mike Schroepfer放弃了在短期内取得重大进展的承诺。
无人驾驶汽车:很多人都期望到2020年实现完全自动驾驶的目标(Elon Musk曾承诺),但该领域普遍的共识是,除了在有限的条件下(例如理想的天气,行人极少的情况,详细的地图等),全自动驾驶的难度比大多数人的预期要困难得多。
研究论文“局限”部分需要提出的六大问题
除去这些花言巧语,AI系统实际上做了什么?“阅读系统”真的能阅读吗?
结果在多大程度上是普遍的?(在凤凰城行之有效的驾驶系统在孟买也能工作吗?解决魔方的系统能打开瓶盖吗?需要进行多少再训练?)
有没有一个demo,感兴趣的读者可以自己探索?
如果说AI系统比人类更好,那么是哪个人类,好多少?
在特定任务上的成功能推动我们在构建真正的人工智能上走多远?
系统有多稳健(robust)?如果不进行大量的再训练,它是否也能与其他数据集一样有效呢?AlphaGo在19x19的棋盘上运行良好,但需要重新训练才能在矩形棋盘上玩;缺乏可迁移性是很明显的。
在每一篇研究报告和媒体报道的结尾处进行一点建设性的自我批评,虽然并不总是缺席,但却经常被遗漏,这可能对保持现实的期望大有帮助。