痴人、信徒、先驱：Hinton、LeCun、Bengio 口述神经网络简史

2018 年 5 月 21 日 THU数据派

来源：AI科技评论

本文约6900字，建议阅读10分钟。

本文讲述奠定AI基石的神经网络研究的学者们早期科研探索的故事。

[导读] 几位最偏执的人坚持到了春天来临。经过过去五年的发展，AI 已经从一种玄学概念发展成了科技产业最大的希望之一。计算机已经能够识别人脸和事物、理解人类说出的话，以及翻译多种语言。谷歌母公司 Alphabet，亚马逊，苹果，Facebook 和微软这些全球最大的科技巨头们，都已经很大程度上将自己的未来押在了 AI 上面，他们开启了一轮「谁先打造出更智能的机器」的 AI 竞赛。

巨头们的 AI 竞赛点燃了 AI 技术，几乎是一夜之间特斯拉的自动驾驶汽车已经奔驰在路上，而亚马逊语音助手 Alexa 也正和你的孩子聊天。但 AI 并不是一晚上建成的，也非单个硅谷公司的独立作品。

1960 年的水牛城，工作人员正在「精细调节」一台感知机

现代 AI，也就是神经网络和机器学习，背后的历史可以追溯到二战的最后的阶段。那时候，学者们刚刚开始试着打造能像人脑那样存储和处理信息的计算机系统。自此开始的几十年间，这项技术起起伏伏的发展着，但是它直到接近 2012 年才开始广泛的受到计算机科学家的青睐，这多亏了一小撮不惧被当成傻子的固执 AI 研究者的坚持。他们始终坚信神经网络将点亮世界，并改变人类的命运。

这些先驱者们散落在世界各地，不过投身神经网络研究的学者们在加拿大这个地方尤其集中。其实他们能来加拿大很大程度上只是因为运气好：神经网络的研究在当时无论如何都算不上时尚，那时候由政府支持的加拿大高级研究所（CIFAR），通过资助神经网络研究的方式吸引了一小撮专业学者来到加拿大。这其中就包括如多伦多大学的 Geoffrey Hinton 和 Yann LeCun，蒙特利尔大学的 Yoshua Bengio，阿尔伯塔大学的 Richard Sutton 这样一些计算机科学家们，给了他们机会分享自己的研究理念、坚守自己的研究事业。这些固执的计算机科学家们提出了很多加速 AI 发展的概念，到现在，所有这些早期概念都被认为是现代 AI 的基石，这几个人也被认为是 AI 的「教父」。

本文接下来要讲述这样一个有点奇特的故事，该故事取材自 Bloomberg 记者 Ashlee Vance 对他们各自采访的内容，这些内容包括:

神经网络为什么花了这么久才发挥作用？
热爱神经网络的计算机科学家是如何抱团在一起的？
为什么全世界这么多地方里就选择了加拿大？

这一切最终都成为了智能机器崛起的舞台。

AI 的画作，BLOOMBERG BUSINESSWEEK 2018 年 3 月刊

加拿大总理 Justin Trudeau ：广泛意义上来讲，AI 指的是一台计算机能够模拟人类想法或行为的电脑。在这种定义下，就诞生了机器学习的概念，其中你会让计算机反复做一个实验。这种情况可能是模拟一辆自动驾驶汽车在道路上行驶，或者机器尝试认出照片里的一只猫。

在这一理念下，就涉及到了机器学习的一个叫做深度学习的子集方法。深度学习的总体思想是打造一个神经网络，神经网络中的权重和偏倚可以进行调节，直到网络给出理想的输出。深度学习可以让计算机的问题解决能力迭代进化，这也就是 Geoff Hinton 和其他科学家们在过去几十年里真正研究的东西，深度学习也是当前 AI 技术最让人激动的基础所在。深度学习在模仿人脑思考方面的表现也更加出色。

Cade Metz，纽约时报记者，《A Forthcoming History of AI》一书的作者：神经网络的灵感要追溯到 1940 年代，当时有人提出构建一种能模拟人脑内神经元网络的计算机系统。但是就在不久后的在 1950 年代，一个叫做 Frank Rosenblatt 的人真正地推动了这样研究的发展。Frank Rosenblatt 教授当时也与美国海军以及其他政府部门进行合作研究，基于神经网络的概念他开发出了这种名为「感知机」的东西。当他曝光自己的成果时，纽约时报和纽约客这样的杂志将其放在了最显眼的位置进行了报道。

Rosenblatt 声称这个感知机将不止能做如识别图像这样的小任务，理论上还能教机器行走，说话和做出表情。但是感知机仅仅有一层神经元，这也就意味着它能做的事情极其有限。更不用说，实际上他承诺的该设备的功能一项也没有实现。

当时，Rosenblatt 的一个同事名叫 Marvin Minsky，Minsky 也碰巧是在 Rosenblatt 在 Bronxt 读高中时的同学，Minsky 在 1960 年代写了一本书，他在书中详细地介绍了 Rosenblatt 开发的感知机和神经网络的局限性。几乎就是因为这本书，神经网络这一领域的研究至少被冰冻了十年之久。

Geoff Hinton：Rosenblatt 的感知机本来能够实现一些有趣的事情的，但是他超前了大约 50 年。尽管同学 Minsky 也曾经可以算作神经网络的信徒，但他在书中显示出了他们解决不了的东西。这本由 Minsky 和 Seymour Papert 写的书《Perceptrons: An Introduction to Computational Geometry》基本上将这一领域的研究判了死刑。

Metz：Geoff Hinton，一开始在 CMU，后来在多伦多大学，一直都在坚持着神经网络的想法。他和他的合作者们最终开发出了一种多层的神经网络，也就是深度神经网络，这种网络终于开始在各种不同的任务中大显神威。

法国出生的计算机科学家 Yann LeCun 也在多伦多的 Hinton 实验室里做了一年的博士后。后来 LeCun 去了美国新泽西州的贝尔实验室。

Yann LeCun：我很小的时候就对智能这一整个概念非常着迷。我长大的时候正是 1960 年代，那时候有太空探索、有最早的计算机和 AI 的出现。所以我开始学习工程学，我对人工智能非常感兴趣，即便这个领域那时候才刚刚萌芽。

1979 年，Yann LeCun（右侧）在 Esiee Paris 大学

我听说了感知机的事情，觉得很好奇，因为我觉得「学习」就是智能的一部分。我就各种途径找到了所有关于感知机的东西来读。作为一个工程师，有一条明摆着的途径就是尝试自己制造一台有智慧的机器，它会促使你关注那些产生智慧需要的组件。这有点像是航空学的先驱们从鸟类身上得到启发，但也同时也不是全盘照抄。我们其实不需要模仿生物智能或者是大脑，因为它的功能的很多方面就只是受制于生物化学或者生物学的基本规律，而不是真的和智慧本身有多大关系。就像羽毛对飞行来说不是必须的，真正重要的是其中隐藏的空气动力学原理。

Metz：有些人曾认为LeCun是个彻头彻尾的疯子，他所做的研究都是徒劳。当时，如果你参加大型人工智能会议，说自己研究的是神经网络，学术界主流肯定会把你排斥在外。当时神经网络都是些边缘研究。

Yoshua Bengio：在1985年，神经网络是边缘研究，我在麦吉尔大学学不到这门课程。我学的是经典的符号人工智能。所以我必须说服我的教授指导我研究神经网络。我获得了政府奖学金，所以我可以自行选择研究主题，这对教授来说没有任何损失。我和他达成了一项协议，我可以做机器学习，但我必须把这一研究应用到他所关心的领域——语音识别。

LeCun：大约在1986年，当时出现了一股神经网络浪潮。物理学家对这些模型产生了兴趣，提出新的数学方法，这使得该领域再次被主流接受，这引领了上世纪 80 年代末和 90 年代初的神经网络浪潮。有些人制造了基于神经网络的系统来做一些实际的事情，比如信用卡诈骗检测。我研究出一个基于符号识别来读取支票的自动化系统。

1995 年，Pomerleau 正在演示他的自动驾驶汽车

Metz：卡耐基梅隆大学的 Dean Pomerleau 在上世纪 80 年代末基于神经网络制造了一辆自动驾驶汽车，这辆车可以在公共道路上行驶。LeCun 在上世纪 90 年代使用这一技术，建立了一个可以识别手写数字的系统，最终这一系统被银行所使用。

从80年代末到90年代，神经网络再次复兴，出现了一些实际应用，LeCun 的工作就是最好的例子。但之后又到了上限，主要原因是计算能力有限、缺乏可用数据。人工智能的冬天再次袭来。

Jurgen Schmidhuber：我们肯定没有使用那些加拿大人（注：此处指 Bengio）的算法；他们在使用我们的算法。LeCun 本来是法国人，我们在用他的算法。这很好。他有很多的贡献，这非常重要、非常有用。

我已经与这些研究人员认识很长时间了。我第一次见到 Yoshua 时，他与我的学生发表了同样的研究，或多或少一样，那项研究我的学生在四年前就发表了。几年后，在一次会议上，我们摊牌了，所有的一切都真相大白。研讨会上大家进行了一场公开辩论，很明显是谁先做的研究。这不会令人不悦，只是澄清事实而已。进行科学研究就是澄清事实。（而 Bengio 否认了 Schmidhuber 的说法。）

LeCun：当时的问题是这些方法需要复杂的软件、大量的数据以及高性能的计算机。没有多少人有机会利用这些资源，也鲜少有人乐意投资。

在上世纪 90 年代中期至 2005 年左右，人们选择了更简单的方法——没有人真正对神经网络感兴趣。对Geoff, Yoshua和我来说，这真是一段黑暗时期，我们并不感到痛苦，但会有点悲伤。我们认为存在明显潜力的研究，大家竟然选择视而不见。

Hinton：当然，我们一直相信神经网络，并致力于这一研究。但是工程师们发现，在小数据集上，其他的方法与神经网络相比也同样有效或者更加有用，所以他们选择了其他方法，认为神经网络只是我们的一厢情愿。致力于让神经网络更加有效的人在当时相当少。

CIFAR 让世界各地与我们抱有相同想法的人有了更多交流。这时候到了转折点。

LeCun：正是由于这一小群人坚持认为神经网络是正确的选择，最终，神经网络重回大众视野。2003年，Geoff 当时在多伦多，CIFAR 找他做关于神经计算的程序。我们聚在一起，决定努力重燃对工作的兴趣。但是，发布我们的想法之前，我们需要一个安全的地方，来举办一些小型研讨会和会议，真正地发展我们的想法。该项目于 2004 年正式启动，到 2006 年出现了一些非常有趣的论文。Geoff 也在《Science》上发表了一篇相关论文。

2006 年 Hinton 《Science》论文中的人脸识别图像

Trudeau：在上一个人工智能寒冬，当大多数人放弃神经网络研究，有些人继续前进，加拿大悄然建立现代 AI 研究的基础，那我可以肯定地讲，加拿大在这方面，在支持纯粹科学研究上，一直做得很好。

我们给真正聪明的人提供了做前沿研究的机会，即便他们的研究可能不会落地到商业或某些具体的地方。

Hinton：2006 年在多伦多，我们开发出了这种训练含有多个层的网络的技术，它比以前的技术更高效。同一年我们在《Science》发表了一篇论文，它产生了很大影响，也为我们的主张起到了很大支持作用，很多人重新燃起了对神经网络的兴趣。2009 年的时候我的实验室里有两个学生开发了一种用深度神经网络做语音识别的方法，它的效果要比当时所有别的方法都好。

其实它的提升也就只有一点点，但是相比之下当时别的技术的发展已经陷入了停滞，30年了都没有实质性的进步。深度神经网络只需要几个月的时间就可以比那些方法做得好，很明显可以看出来只需要短短几年时间，神经网络就还可以有大的发展。

Metz：大概 2009 年的时候，Hinton 很巧地遇到了微软的语音识别研究员邓力。就像其他人一样，邓力相信 AI 的呈现形式不应当只有符号化 AI 一种。对于符号化 AI ，语音识别系统需要由一行又一行的代码组成，需要人工设定系统的每一个行为的具体细节，系统研发也进行得非常缓慢。

Hinton 表示他尝试用神经网络做语音识别，而且已经有了实质性进展。神经网络能够学会分析语音数据中的模式，而且运行速度也要比一行行代码组成的符号化 AI 系统要快。邓力这时候并没有完全相信 Hinton 的话，但他邀请 Hinton 来微软继续推进这项研究，最终还有两位 Hinton 的合作者也一起来了。微软的语音识别技术由此跨越了一大步，2010 年时谷歌也跨了一大步。

后来，到了2012年底，Hinton 和两个学生一起在图像识别方面也做出了突破性进展，把之前的所有方法都远远甩在了身后。也就是直到这个时候，微软和谷歌之外的业界公司们才开始意识到这个想法有多么厉害。

值得注意的是，这些都是很老的想法了。但现在神经网络背后的计算能力和数据量就和以前大不一样。对于微软和谷歌这种规模的科技企业，他们需要数以千计的计算机共同运行，处理文本、视频等等各种东西。让神经网络获得成功的正是这些：训练网络需要许多的数据，同时你还需要足够的计算能力支撑网络的训练。

办公室里的 Hinton

LeCun：如果你要问为什么过了这么久才成功，那我的回答是，科学研究就是这样的，人类的心理也就是这样的。当一种新技术出现的时候，要先有足够的证据能说服人们它能行，然后人们才会开始大规模使用它。但神经网络的这些方法一直有「挑剔」的坏名声，想要发挥出效果也需要一些「黑魔法」。

Richard Sutton：计算能力能这样快速而持久地提升，这是十分惊人的。现在，想要开发更复杂的算法的人和想要开发更快的计算机的人之间仿佛在比赛一样。对于设计的算法的人来说，已经可以考虑设计运行在未来 5 到 10 年内新出现的计算机上的算法了。

计算机需要什么是好的、什么是不好的。所以人类会给它一个特别的信号，叫做「反馈」（reward）。如果反馈值高，那就说明是好的；如果反馈值低，那就说明是不好的。这就是这种设计的目的。

神经网络可以存储学习过程，而强化学习就是让你决定你想要改变什么。

Bengio：距离实现 Geoff、Yann 和我想象中的那种无监督学习还有太远的距离。差不多企业做的基于深度学习的产品都是主要依靠监督学习的，计算机通过上百万个案例学会再遇到一个的时候要做什么。人类当然不是这样学习的，我们能自主地学习。我们能够自己探索身边的这个世界。2 岁的小孩就对基本的物理规律、重力、压力等等有了直觉，根本不需要他的父母先给他教会牛顿的力学定律和万有引力定律。我们观察这个世界、和世界互动，然后对这个世界中的事物会如何运行、自己做了一件事以后接下来会如何发展形成自己的见解。

我们的研究正在转向无监督学习的新阶段，同时它也可以和强化学习方面的成果联系起来。我们并不仅仅观察这个世界而已，我们还与世界互动，根据动作产生的后果来搞清世界的运行规律。

LeCun：我很感兴趣的课题是如何让机器可以像人类和动物那样高效地学习。当学习开车的时候，你心里知道如果你开到路外面了就不太好。我们人类能够预测自己动作的后果，这也意味着我们在做一件事之前就能意识到这件事是好事还是坏事。

所以，我正在追求的目标是找到一些训练机器的新方式，让它们能够通过观察学习，从而也就能构建出对这个世界的预测模型。如今世界上的某一种生物都对自己所处的环境有预测能力。一种生物越聪明，他们的预测能力就越高。从某种意义上可以认为「预测」就是「智慧」的核心，然后再加上根据自己的预测做出对应行动的能力就好。

未来 3 年、5 年、10 年，或者 15 年，我们很有可能就做出一些显著的成果，其实这并不算遥远。不过接下来在这个基础上做出接近人类智慧的系统就需要很长时间了，可能要花好几十年。

Bengio：我觉得人类的工作不见得会被机器人取代，即便机器变得非常聪明，甚至比人类还聪明。有一些工作的本质是人和人之间的互动，这类工作我们永远都希望是人在做。比如我就不喜欢让机器人照顾自己的小孩或者长辈，以及我住院的时候照顾我。我并不担心《终结者》那样的事情发生。我相信，如果我们能够制造出和我们同样聪明的机器，那他们也就已经有能力理解我们人类的价值取向和人类的道德观，从作出对人类有利的行动。

我真正担心的是 AI 有可能被滥用，比如把 AI 用在武器中。AI 用在广告中可以影响人们，我们已经可以看到这样的事情发生。对于 AI 的使用可能有道德或者伦理问题的地方，我们应该直接设计法律来禁止。人类作为一个整体需要变得更聪明一些。

Sutton：我觉得我们把这个领域称作「人工智能」就是一个很大的错误。它给人带来的感觉是仿佛它和人类很不一样，而且也不是真正的智能。这种说法给人们徒增了很多「异类」的感觉，但其实我们在做的事情是一件很有人情味的事情：在机器上重现人类的智慧。

一直以来科学揭示的真相都不是所有人都喜欢的——你确实得到了真相，但这真相并不是你预想的那个样子。可能这也就是历史上宗教总会和科学间产生冲突的原因。我觉得随着我们对人脑的研究越来越多，同样的事情也会发生。也许我们永远都找不到「意识」这件事的解释，有的人会喜欢这个结果，也有人会不喜欢。科学改变不了客观真相。

每次世界的趋势发生改变的时候，总是会区分出赢家和输家；而未来还有很多巨大的变化等着我们。我觉得我们自己就会变成有智慧的机器。我们应当把 AI 看做我们自己，或者看作我们的后代。我们可以按照自己觉得合适的样子打造它们。

那么人性是什么？人性是一种想要变得更好的不懈动力。我们不应该尝试把所有的一切都停留在原地，然后说这就是应有的样子。

2011 年，Hinton 和 Bengio 在盖茨比研究院组织的 workshop 外散步

LeCun：除非我们真的知道以后会发展成什么样子，否则对此的任何担心都只是杞人忧天。我不认同技术奇点的想法，就是说有一天我们造出了拥有超级智慧的机器之后，他们就马上可以自己制造出更聪明的机器，从此一发不可收拾。相信这个概念的人大概是忘了所有的物理或者社会现象都会遇到各种各样的阻力，一个指数曲线的增长过程是不可能无限地持续下去的。

好莱坞电影里那种「某个阿拉斯加的天才弄清了 AI 的奥秘，造出了一个超智慧的机器人然后它统治了全世界」的故事是不可能发生的，这简直太荒唐了。

Trudeau：这件事我并不非常担心。对于理论上 AI 会有多危险，我们看过的科幻小说和科幻电影已经够多了。我觉得我们应该保持一个常识，就是技术可以用来做好事，也可以用来做坏事。让我感到欣慰的是，加拿大就在好的一方里，它在尝试把大家保持在正确的道路上。我也不希望减缓我们研究的步伐，减缓我们弄清宇宙的真谛。

这里真正的问题是，我们想要一个什么样的世界？我们是希望成功的人都要躲在栏杆围起的花园里，所有别的人都很嫉妒、出门的时候会带着干草叉，还是希望这个世界上的每一个人都有做出贡献、做出创新的机会？

Hinton：我觉得这些东西的社会影响很大程度上取决于我们所在的政治系统。本质上，提高商品制造的效率应当会增加社会的总福利。反而会带来不好的后果的话只有一种可能，那就是这个社会会把生产力提高带来的好处全部给了社会顶端 1% 的人。我住在加拿大的其中一个原因就是合理的收税制度：如果你挣了很多钱，你也需要交很多税。我觉得这样的设计很棒。

我觉得真正重要的是，我们无法预测未来。只要你开始尝试猜测未来 20 年可能会发生什么，你几乎一定会错得离谱。不过也有一些东西是我们可以预测的，比如技术进步最终会改变一切。