马库斯批判Hinton、吴恩达、LeCun等三大神煽风点火！指媒体炒作将再引发AI寒冬

2019 年 12 月 2 日 新智元

新智元报道

来源：thegradient

作者：Gary Marcus 编译：肖琴

【新智元导读】纽约大学心理学与认知科学教授、畅销书作家加里·马库斯认为，在关于AI研究的新闻报道中，过度的宣传和错误的信息将导致AI寒冬再来。而问题不仅出在媒体，研究人员和AI领军人物持默许态度甚至煽风点火。你认同马库斯的观点吗？来新智元AI朋友圈和行业大咖讨论吧～

“过度的宣传和错误的信息将导致AI寒冬再来”，纽约大学心理学与认知科学教授、畅销书作家加里 · 马库斯 (Gary Marcus) 最近在The Gradient上撰文，批评媒体在报道AI进展时常常倾向于将每一个微小的新进展描述为将从根本上改变我们的世界的巨大的胜利。

这类夸大的报道满足了读者的阅读兴趣，却带来了不容忽视的危害：如果公众、政府和投资界认识到，他们被灌输了关于人工智能的不符合现实的观念，那么新一轮的AI寒冬可能就会开始。

并且，这一切已经有预兆，包括聊天机器人、医疗诊断、假新闻检测器、自动驾驶汽车等等，过度的承诺往往导致了项目本身的死亡。

但过度炒作AI的问题不仅出自媒体和大众，马库斯表示， 许多AI领域的领军人物也在煽风点火 。

AI夸大报道泛滥，研究人员默许甚至煽风点火

无论是人工智能还是纳米技术，媒体常常倾向于在报道每一个微小的新进展时，描述为一次巨大的胜利，将很快从根本上改变我们的世界。当然，偶尔也有新发现被低估。晶体管刚出现时并没有掀起多大的波澜，也没有多少人一开始就意识到互联网的全部潜力。但对于晶体管和互联网，有很多小的结果是被夸大了的，有很多产品和想法从未兑现，像冷聚变这样的所谓进步还没有被复制，在死胡同里进行的实验最终也不会改变世界。

晶体管

当然，部分原因是因为公众喜欢革命性的故事，对报道微小进步的新闻哈欠连连。但研究人员往往是同谋，因为他们过于依赖宣传，而这会对他们的研究资金甚至薪水产生重大影响。在很大程度上，媒体和相当一部分研究人员都对这种现状感到满意，有源源不断的结果一开始被过度宣传，然后被悄悄遗忘。

让我们来看看过去几周的三个独立结果，这些结果被主流媒体以从根本上就具有误导性的方式报道出来：

11月24日，《经济学人》发表了一篇对OpenAI公司的GPT-2句子生成系统的采访，误导性地说GPT-2的答案是“未经编辑的”，而实际上，每一个被发表的答案都是通过连贯和幽默性过滤器从五个选项中选择的。这让公众认为对话式AI已经比实际要近得多。这种印象可能在不经意间被进一步加深，AI领域的权威专家Erik Bryjngjolffson在推特上说，这篇采访“令人印象深刻”，“GPT-2的答案比许多人的回答更连贯”。而事实上，这篇采访令人印象深的的连贯性来自(a)该系统所使用的大量人类文字；(b)人类记者对连贯性的过滤。了解到这一点后，Brynjjolffson发了一则更正，但与本文的主题一致，转发他的原始推文的数量与转发更正的数量是75:1——表明强调AI胜利却具有误导性的新闻要比清醒的消息传播得更快。

OpenAI创建了一个神经网络系统，让机器人学会操纵一个定制的魔方，并通过有误导性的宣传视频和博客让许多人认为该系统已经学会了在认知方面解决魔方，实际并非如此。(相反，除了灵巧性之外，解魔方的计算是通过1992年发明的一种经典的、符号操纵的解魔方算法来完成的，这种算法不是后天习得的)。在这段广为流传的视频中，另一个不那么明显的事实是，这个魔方装有蓝牙传感器，而且即使在最好的情况下，其成功率也只有20%。媒体报道往往忽略了这些细微差别。例如，《华盛顿邮报》报道称，“OpenAI的研究人员表示，他们并没有明确地编程机器来解决这个难题”，而这起码是不清楚的。《华盛顿邮报》随后发表了一则更正——“更正：OpenAI将他们的研究重点放在使用机械手物理操作魔方，而不是解决魔方难题…”——但显然读到这则更正的人远远少于那些阅读了误导性的原始故事的人。

三体问题

最近，至少有两篇关于神经网络在物理学中的应用的论文被夸大报道了，包括一些著名媒体。两个事件中，解决复杂问题的玩具版本的神经网络被夸大。例如，一篇报道称“神经网络解决了三体问题，比传统方法快1亿倍”，但该网络并没有经典意义上的解决方案，而是进行了近似，并且仅近似了一个高度简化的二阶自由问题(而不是传统的10阶)，并且仅限于具有相同质量的物体。最初的误导性报道在网络上广泛传播，随后，Ernest Davis和我本人在Nautilus上写了一篇详细评论受到广泛关注，但以转推量作为粗略的衡量标准的话，阅读原始新闻的人与阅读更冷静的分析的人的比例还是75:1，甚至更悬殊。

不幸的是，过度炒作AI的问题已经超出了媒体本身。事实上， 自AI诞生以来的几十年里，许多(当然不是全部)AI领域的领军人物都在煽风点火 。

这可以追溯到早期的创始人，他们认为我们现在可以称之为通用人工智能(AGI)的时间不会超过几十年。1966年，麻省理工学院(MIT)人工智能实验室给Gerald Sussman布置了一个著名的任务：在一个夏天内解决视觉问题；众所周知，机器视觉在50年后仍然没有得到完全解决。在第一个乐观的预测发布60年后，通用AI似乎仍需要几十年的时间。

这种趋势当代仍在继续。以下是一些近期AI历史的例子，来自一些最著名的人物：

在2015年接受《卫报》采访时，被广泛誉为“深度学习教父”的Geoff Hinton热情表示谷歌采用类人智能的机器学习新方法“帮助克服了人工智能的两个主要挑战：掌握自然的对话语言以及实现逻辑跳跃的能力”，并且该公司“即将开发出具有逻辑、自然对话能力的算法”。这篇采访题为“谷歌向开发具有类人智能的机器迈进了一步”，然而四年后，我们距离能够进行自然对话而无需人工干预、确保连贯性的机器还有很长的路要走，也没有现成的系统能够可靠地对物理世界进行推理。大约一年后，Hinton声称，放射科医生就像“已经在悬崖边缘但还没有向下看的狼”，建议“如果你做放射科医生，就像动画片里面的歪心狼怀尔(Wile E. Coyote)，你已经在悬崖的边缘了”。他补充说：“我们现在应该停止培训放射科医生。很明显，在五年内，深度学习将比放射科医生做得更好。”Hinton在2017年接受《纽约客》采访时进一步回应了这一说法。与此同时，数百家放射学公司带来了无数种深度学习技术，但到目前为止，还没有真正的放射学家被取代。最好的猜测是，深度学习可以增强放射学家的能力，但不能在短期内取代他们。Hinton的话吓坏了许多放射科的人。后果可能是消极的；目前在世界的许多地方放射科医生都是短缺的。

2016年11月，在《哈佛商业评论》上，另一位深度学习领域的知名人物吴恩达(Andrew Ng)写道：“如果一个普通人用不到一秒钟的时间就能完成一项智力任务，那么我们可能在现在或不久的将来就可以用AI实现这一任务的自动化。”一个更现实的评估是，某件事是否可以自动化在很大程度上取决于问题的性质、可以收集的数据以及两者之间的关系。对于像桌面游戏这样的封闭式问题，可以通过模拟来收集大量的数据，吴恩达的观点已经被证明是有预见性的；但在无法完全模拟的开放式问题中，例如会话理解，吴恩达的观点至少到目前为止被证明是错误的。商业领袖和决策者最好能够了解哪些问题适用于目前的技术，哪些不适用；吴恩达的话掩盖了这一点。

2015年5月，《连线》杂志根据对时任Facebook人工智能研究主管Yann LeCun的采访，报道称“‘深度学习’将很快给我们带来超级智能机器人”。不用说，超级智能机器人还没有到来。正如Pieter Abbeel最近指出的那样，从实验室演示到让机器人在现实世界中表现出智能，还有很长的路要走。

与此同时，那些自己工作被歪曲的研究人员的反应往往是沉默，甚至是默许。Open AI的首席科学家llya Sutskever在推特上说：“《经济学人》采访了GPT-2，这次采访很有意义。”当我问他，在了解《经济学人》采访中的例子是人工选择的之后，他是否坚持自己的评论时，他没有回答。

一个多月前，OpenAI的首席技术官Greg Brockman亲自挑选了自己，他在推特上说：“ 一篇GPT-2写作的文章已提交给《经济学人》青年写作竞赛…一位不知道该文章是由AI写作的评委给出了这样的评论：“措词有力，并用证据支持了主张，但这一想法并非具有独创性。 ”他没有注意到的是，其他一些评委对同一篇文章持相当否定的态度。例如，文章“没有足够快地抓住要点；观点不是新颖，太含糊，修辞问题过多”（评委2），而另一位评委指出“这篇文章没有从根本上回答问题，也没有提出新颖的想法，写作/结构也不是特别好。此外，我认为文章并没有表明对现有气候政策或IPCC出台的科学文献的深刻理解。”（评委6）。

研究社区的其他习惯进一步证实了不准确的“人工智能就在我们身边”的说法。例如，DeepMind经常写一些文章，热情洋溢地谈论某项工作的潜力，但缺乏有关潜在限制的章节，而这些章节是大多数严肃科学工作的结论部分的主要内容。相反，他们常常通过推论来表明他们正在努力解决问题和重大挑战，暗示他们使用的技术应该解决其他重大挑战——而不考虑其他问题，如自然语言理解，这与他们一直关注的游戏问题有很大的差异。他们发表在《自然》(Nature)上的有关AlphaGo和星际争霸(StarCraft)的论文都遵循了这一策略，基本上没有讨论潜在的限制。

幸运的是，并不是该领域的所有人都夸大了自己的工作；在过去一年左右的时间里，我看到了 Pieter Abbeel和Yoshua Bengio 的精彩而平衡的演讲，他们都指出了深度学习(和深度强化学习)做得很好，但同时也明确指出了未来的挑战，并坦率地承认我们仍有很远的路要走。(Abbeel强调了实验室工作和机器人在现实世界中工作之间的差距，Bengio强调了因果关系的必要性)。我只是希望这些是常态而不是例外。如果不是这样，政策制定者和公众很容易就会感到困惑；由于这种倾向于夸大而非低估结果的报道，公众开始担心在可预见的将来AI会取代许多工作，而这不会发生。

新的AI寒冬早有征兆：聊天机器人、医疗诊断等项目“死亡”

为什么从业人员应该关心？毕竟，对AI的炒作给每个人都带来了好处，不是吗？公众的热情意味着更多的资金投入研究，更多的人致力于人工智能；如果有更多的钱和更多的人，我们将更快地实现通用人工智能。有什么危害呢?

我认为这是“公地悲剧”(the tragedy of the commons)的一个版本，例如，许多人在某一特定水域过度捕捞，在短期内为他们自己生产了更多的鱼，直到整个鱼类种群崩溃，所有人都要受苦。人工智能的风险在于：如果公众、政府和投资界认识到，他们被灌输了一种关于人工智能优势劣势的不符合现实的观念，那么新一轮的AI寒冬可能就会开始。(第一次AI寒冬是在1974年，之前经历了一轮炒作和失望的周期。)

我们已经看到了多个事后看来可能是预兆的事件：

聊天机器人：2015年，Facebook承诺推出一款名为M的系统，将彻底改变智能助理的工作范围。打造他们想要的东西的AI在当时并不存在，但这个项目被认为是一个数据游戏；人类将回答第一批问题，然后深度学习将处理剩下的问题。到2018年，该项目被关闭。总体来说，2015年时人们对聊天机器人的热情很高；现在，人们普遍认为，目前的AI只能处理有限的对话，即使这样也没有完全的可靠性。他们做出了承诺，但没有兑现。

Facebook虚拟助理M在2018年被关闭

医疗诊断：IBM Watson过度承诺，最终由于令人失望的结果，MD安德森癌症研究所等医疗合作伙伴退出；现在，人们普遍认为，让Watson进行医学诊断的项目是一种过度的承诺。考虑到DeepMind非凡的数据访问能力和庞大的计算和智力资源，许多人一开始都以为它会涉足医疗诊断。但现实情况是，目前也没有什么令人信服的东西出现(DeepMind的医疗部门已经转移到谷歌)。即使在更简单的放射学案例中，它主要是关于感知的而不是关于推理，对自然语言理解的要求更小，将实验室演示付诸实践也被证明是困难的。

放射科医生检查结果

假新闻检测器：2018年4月，马克·扎克伯格向国会表示，人工智能将在5到10年内解决Facebook最棘手的问题，包括虚假新闻、仇恨言论、歧视性广告和恐怖主义宣传等。但到今年5月，Facebook首席技术官Mike Schroepfer放弃了在短期内取得重大进展的承诺。

无人驾驶汽车：很多人都期望到2020年实现完全自动驾驶的目标(Elon Musk曾承诺)，但该领域普遍的共识是，除了在有限的条件下（例如理想的天气，行人极少的情况，详细的地图等），全自动驾驶的难度比大多数人的预期要困难得多。

Waymo的自动驾驶车

现在，政府、大公司和风险投资家正在对人工智能进行大规模投资，主要是深度学习；如果他们开始察觉到一种过度乐观的模式，那么整个领域可能都会遭殃。如果无人驾驶汽车和对话机器人只晚一两年出现，没问题，但在无人驾驶汽车、医疗诊断和对话人工智能方面，实现的日期越晚，新的AI寒冬的风险就越大。

研究论文“局限”部分需要提出的六大问题

到目前为止，关于AI的错误信息很普遍。虽然夸大报道并不是到处都是，但即使是知名媒体也经常歪曲结果；企业的利益经常导致这个问题。个别的研究人员，甚至一些最杰出的研究人员，有时也会这样做，而当他们的研究结果被误解时，更多的人只是静静地坐在一旁，不去公开澄清。

错误的信息并不是无处不在的——一些研究人员直言不讳地指出研究的局限性，一些报道准确地描述研究结果，诚实地承认局限性；但是把每一个渐进性的进步都解释为革命性的突破，这一趋势普遍存在，因为人们都喜欢阅读这类故事。

最终，其结果可能会削弱该领域，自相矛盾的是，在最初激发公众兴趣之后，反而引发了AI寒冬的到来。

在Rebooting AI一书中，Ernie Davis和我提出了6条建议，每一条都针对读者、记者以及研究人员应该如何平等地评估他们获得的每一个新结果，并在论文讨论的“局限”部分提出同样的问题：

除去这些花言巧语，AI系统实际上做了什么？“阅读系统”真的能阅读吗?

结果在多大程度上是普遍的？(在凤凰城行之有效的驾驶系统在孟买也能工作吗？解决魔方的系统能打开瓶盖吗？需要进行多少再训练?)

有没有一个demo，感兴趣的读者可以自己探索?

如果说AI系统比人类更好，那么是哪个人类，好多少？

在特定任务上的成功能推动我们在构建真正的人工智能上走多远?

系统有多稳健(robust)？如果不进行大量的再训练，它是否也能与其他数据集一样有效呢？AlphaGo在19x19的棋盘上运行良好，但需要重新训练才能在矩形棋盘上玩；缺乏可迁移性是很明显的。

在每一篇研究报告和媒体报道的结尾处进行一点建设性的自我批评，虽然并不总是缺席，但却经常被遗漏，这可能对保持现实的期望大有帮助。

Gary Marcus的新书 Rebooting AI

作者介绍：加里·马库斯(Gary Marcus)是一位科学家、畅销书作家和企业家。他是Robust.AI公司的创始人和首席执行官。他是机器学习公司Geometric Intelligence的创始人兼首席执行官，该公司于2016年被优步收购的。他是五本书的作者，包括 The Algebraic Mind Kluge、The Birth of the Mind、《纽约时报》畅销书Guitar Zero，以及他最近与Ernest Davis合著的新书 Rebooting AI。

原文链接：

https://thegradient.pub/an-epidemic-of-ai-misinformation

寒冬里，这个最酷AI创新平台招人啦！新智元邀你2020勇闯AI之巅

在新智元你可以获得：