Jürgen Schmidhuber 的人工智能畅想曲

2017 年 5 月 5 日 机器之心

机器之心原创

编辑：吴欣、微胖

Jürgen Schmidhuber 为机器之心「2017 全球机器智能峰会」的重要演讲嘉宾。

演讲时间：5 月 27 日，9:10-9:40 AM

演讲主题：True Artificial Intelligence Will Change Everything

Jürgen Schmidhuber 是瑞士人工智能实验室 IDSIA 的科学事务主管，同时任教于卢加诺大学和瑞士南部应用科学与艺术学院。他于 1987 年和 1991 年在慕尼黑工业大学先后获得计算机科学的学士和博士学位。从 1991 年开始，他成为深度学习神经网络领域的开拓者。随后，他在 IDSIA 和慕尼黑工业大学的研究团队开发了一种递归神经网络，并率先在正式的国际性比赛中获胜。他获得的其他奖项还包括 2013 年国际神经网络协会的亥姆霍兹奖，以及 2016 年电气与电子工程师协会的神经网络先锋奖等。

30 年前，Jürgen Schmidhuber 正在慕尼黑工业大学忙于完成计算机科学专业的毕业论文。在这篇论文的封面上，他设计了一个可以进行自我操控的机器人，内文详述了这类机器人背后一种可以自动修改代码的元程序（meta-program），它可以改善特定领域某些系统的性能，还可以自我改进学习算法及其学习方式等。

这完整表露了 Jürgen Schmidhuber 建立自我优化人工智能的目标，也开启了接下来一系列关于递归式自我改进算法的研究。其实，Schmidhuber 早在 1970 年代就已经萌生这一目标，为此他在大学期间选择学习数学及计算机科学。

「我最大的偶像是阿尔伯特·爱因斯坦。我在某个时候意识到，如果我打造出了比我自己乃至比爱因斯坦更聪明的东西，我会拥有更大的影响力。」Jürgen Schmidhuber 说，「从 1987 年将这个问题作为学位论文选题以来，我一直在研究这个包罗万象的内容，但是现在我能看到这个主题正开始变成一个可能实现的现实。」

在实现自我优化人工智能的道路上，一个里程碑式的关键性突破是——1997 年，Jürgen Schmidhuber 和他的学生 Sepp Hochreiter 共同撰写论文提出长短时记忆 (Long Short-Term Memory，下简称「LSTM」），它是一种让人工神经网络通过记忆功能来获得提升的方式，即根据之前获得的信息增加解读字词或者图像的模式的闭环。

如今，最大的 LSTM 网络有约 10 亿个连接。以一定的趋势推断，在 25 年内，也就是 Zues（创建首个计算机）后的 100 年，以与当时相同的价格，我们也许能买到一个与人脑差不多大小的、有 100 万亿个电子连接的 LSTM 网络，它远远快于生物连接。

LSTM 一开始并没有被行业重视，在近些年深度学习热潮的推动下，LSTM 被越来越多科技公司采用，其研究价值和意义被重新认识。据 SemanticScholar 的数据显示，在过去两年时间，《Long Short-Term Memory》一文的引用量从 2014 年近百次激增到超过 2000 次。

然而，作为最初的技术开发者，54 岁的 Jürgen Schmidhuber 似乎并不如其他深度学习领域的技术明星那般享负盛名。《纽约时报》称其「本应该是人工智能之父」，在一篇约翰·马尔科夫的采访报道中，则归因为他所开创的时代太早，即便是计算机硬件性能还不足以处理这些算法。

实现通用智能

「我一直在问自己：我能给世界带来最大的影响是什么？所以我对建造一个比我更聪明的机器这一目的十分明确，它甚至能自己建造些更聪明的东西等等，最终它能殖民并改变整个宇宙，让自己变得智能。」

自 1987 年以来，Jürgen Schmidhuber 一直在开拓自我改进的一般问题解算器，直到 1991 年，他成为外界口中的深度学习神经网络领域开拓者。那时候的他，还是慕尼黑工业大学的一名博士生，发布了首个超级深度学习系统（Very Deep Learners），其层数远超过 1960 年代深度学习之父、乌克兰数学家 Ivakhnenko 的 8 层网络。

这也是他自己的第一个深度学习系统。

「我们称自己基于循环神经网络的方法是通用目的深度学习（general purpose deep learning）或通用深度学习（general deep learning），因为与 Ivakheneko（及其在 70、80 年代追随者）所研究的深度正向传播神经网络不同的是，我们的深度循环网络具有并行的、通用目的计算架构。在 90 年代初，我们的网络能够学习解决许多先前无法学习的问题。」

人们在思考问题的时候，并不会从零开始，而是会凭借自己以往的一些经验与记忆做出判断。但是，传统的神经网络可做不到这一点。比如，你想要对一部电影里的每个镜头进行分类，判断荧幕上都在演些什么。但是，传统神经网络可能只能孤立地看待每一帧，而无法把上一个镜头串联起下一秒发生的事情。RNN（循环神经网络）就是为解决这个问题而生的，顾名思义，也就是能够让信息在网络中再次循环的网络。

在慕尼黑工业大学拿到了数学和计算机科学学位后，30 岁时，Jürgen Schmidhuber 获聘成为该大学教授。Jürgen Schmidhuber 的第一位学生（现在是教授）Sepp Hochreiter 识别并分析出 RNN 存在的巨大问题：梯度突然消失或爆炸（explode）。

「这也促成了我们后续在 20 世纪 90 年代和 21 世纪的所有深度学习研究，」他说。

在瑞士、德国和欧盟的公共资金的资助下，Jürgen Schmidhuber 开发了 LSTM 等深度学习方法，解决 RNN 存在的短板。1997 年，他和 Sepp Hochreiter 共同撰写了一篇论文，其中提出了一种利用记忆功能来增强人工神经网络（模拟人类大脑的计算机系统）的方法，即根据之前获得的信息，添加解释文字或图像模式的循环。他们称之为「长短期记忆（LSTM）」。

LSTM 和传统 RNN 唯一的不同就在与其中的神经元（感知机）的构造不同。传统的 RNN 每个神经元和一般神经网络的感知机没啥区别，但在 LSTM 中，每个神经元是一个「记忆细胞」，细胞里面有一个「输入门」（input gate）, 一个「遗忘门」（forget gate），一个「输出门」（output gate），俗称「三重门」。

LSTM 的优势在于，能够解决梯度消失的问题。LSTM 还可以保留误差，用户沿时间和层进行反向传递。「我们的神经网络跟别人不一样的地方在于，我们搞清楚了怎么让神经网络更深、更强，尤其是 RNN，最普遍也是最深层的神经网络，有反馈连接，在理论上能够运行任意的算法或程序与环境互动。」

遗憾的是，当时 LSTM 也并没有受到业界更多的重视，在 1995 年，首个论述 LSTM 的论文被著名的 NIPS 会议拒绝了。1997 年，关于 LSTM 的论文被麻省理工学院退稿。「即便是美国、加拿大及其他地区的著名的神经网络专家，都没能意识到我们自 1990 年代起于高山上实验室研发的深度循环神经网络的潜能。」Schmidhuber 多次在媒体采访时表露出遗憾。

很多研究者也都体验过这样的失意。蒙特利尔大学教授、蒙特利尔学习算法研究所的主任 Yoshua Bengio 曾一度很难找到愿意与他合作的研究生。「当时，很少有研究者对此感兴趣，但我们坚持了下来，随着计算力越来越便宜，通过这样的方法赢得比赛只是时间问题。我很高兴看到其它深度学习实验室和公司现在也大量使用我们的算法。」Jürgen Schmidhuber 说。

2007 年，Jürgen Schmidhuber 团队 CTC（2006 年）训练的 LSTM 开始革新语音识别，性能表现超越了键盘识别任务中传统方法。2009 年，LSTM 成为首个在国际模式识别竞赛获奖的 RNN，由 Jürgen Schmidhuber 曾经的博士生和博士后 Alex Graves 推动。同年，Dan Ciresan 领导团队在没有使用任何预训练的情况下，赢得一系列机器学习竞赛，成绩比以前的系统有了大幅提升：2011 年在图像识别任务上率先取得超越人类的表现，2012 年成为最先在物体检测和图像分割竞赛中获奖的深度学习系统，2012 年在医疗图像癌症检测最佳、2013 年 MICCAI 挑战赛冠军等。

但是，LSTM 真正受到应有的关注和评价，源于科技巨头先后加入到 LSTM 阵营。

20 世纪 90 年代以来，欧洲纳税人资助了在深度学习（Deep Leaning）和 LSTM 方面的基础研究，开始推动 Google 等公司的语音识别、图像字幕生成、机器翻译和自动邮件应答等应用。

2015 年，谷歌使用 LSTM 减少了 49% 的语音识别错误，成为一个飞跃性进步。接着谷歌还将 LSTM 用于自然语言处理、机器翻译、生成图说、自动邮件回复、智能助手等领域。随后，语音识别、视觉领域的研究都越来越多地采用 LSTM 概念。苹果也在其 WWDC 2016 开发者大会上对它如何使用 LSTM 提升 iOS 操作系统性能做了解说。

LSTM 还作为编剧的身份出现在大荧幕上——《Sunspring》这部微科幻小说电影的剧本完全由人工智能系统撰写，作者是 LSTM 循环神经网络，该人工智能系统名叫 Benjamin。为了训练 Benjamin，Goodwin 为人工智能系统提供了一个他在网上找到的包含很多科幻小说剧本的语料库——其中大部分来自于 1980 年到 90 年代的电影。Benjamin 实验最有趣的部分一直在于从科幻小说故事中学习模式（pattern）。Benjamin 的写作内容听起来很原创，甚至古怪，但是这一切仍然是基于人类实际写作内容的。

如今，LSTM 的变体很多。所有提及 LSTM 的论文都有着小小的改动，这些改进虽然并不明显。比如，最时尚的 LSTM 变体就是 Gers & Schmidhuber (2000) 提出的「猫眼连接」（peephole connections）的神经网络。另一个比较惹眼的变体为 GRU（Gated Recurrent），由 Cho, et al. (2014) 提出。

「在包括 Felix Gers 、Alex Graves、Santi Fernandez、Faustino Gomez、Daan Wierstra、Justin Bayer、Marijn Stollenga、Wonmin Byeon、Rupesh Srivastava、Klaus Greff 等人在内的我出色的学生及博士后的帮助下，该算法被逐步发展。LSTM，特别是在处理序列数据方面，已经变为了大多数如今被叫做深度学习算法的基础。」

在谈到今天深度学习研究取得的进展，他概括为「新瓶装旧酒」。计算能力的飞速发展彻底革新了过去的模式识别和机器学习。

Jürgen Schmidhuber 还提醒道，「实验室有一项影响不那么深远但非常实用的贡献，那就是极大地加快了深度监督前馈神经网络在图像处理器上的速度，尤其是使用 Linnainmaa 的反向传播技巧训练的卷积神经网络架构。」

Nnaisense，通往 AGI 之路

在追求通用人工智能的道路上，最为著名的公司当属 DeepMind。但是，不少人仍然不知道这公司的头四名成员中，有两位来自 Jürgen Schmidhuber 所在的 IDSIA，他们的第一位人工智能领域的博士雇员也来自 IDSIA，其中一个是联合创始人，另一个是公司的第一名员工；Jürgen Schmidhuber 的其他博士学生也稍后加入了 DeepMind，其中包括在 2010 年 Atari-Go 论文的联合作者。

Jürgen Schmidhuber 对机器人和通用人工智能的兴趣可以追溯到青少年时代。1963 年，Jürgen Schmidhuber 出生于慕尼黑。他在青年时代，从图书馆借阅了大量科普书籍和科幻小说——尤其喜欢奥拉夫·斯泰普尔顿（Olaf Stapleton）的《造星主》（Star Maker）、E·T·A·霍夫曼（ETA Hoffmann）的《沙人》（The Sandman），以及史坦尼斯劳·莱姆（Stanislaw Lem）的小说。

而现在，位于瑞士阿尔卑斯山卢加诺的实验室里，他的初创公司 Nnaisense 已经开发出一套婴儿般的系统，几乎可以不通过实验的方式了解世界的运转原理。Schmidhuber 认为，RNN 是打造通用人工智能的基础，与其借鉴脑科学发展人工智能，还不如深入研究数学和算法，尤其是机器学习和推荐程序。事实上，2000 年年初，在数学上最优的通用 AI 及问题解决器在 IDSIA 里 Schmidhuber 的实验室中已经被研发出来，如 Marcus Hutter's AIXI(tl) Model 或 self-referential Gödel Machine。

建立一个基于神经网络的人工智能，它可以逐步学习，至少变得和小动物一样聪明、好奇、有创造性，不断学习去计划和理性，将非常广泛的问题分解成可快速解决（或者已经解决）的子问题。

一旦动物水平的人工智能被实现，下一步对于人类水平人工智能的实现会容易很多：发展演化出聪明的动物花费了几十亿年的时间，但是在这之上演化成人类只用了几百万年。技术进化要比生物进化快得多，因为死路消亡的也要快得多。Jürgen Schmidhuber 认为，「一旦我们拥有了动物水平的人工智能，在几年或者几十年之后，我们或许就会拥有人类水平的人工智能，届时将拥有真正无限的应用，每一个业务将被改变，所有的文明也会被改变，一切都将改变。」

在 20 世纪 60 年代，人工智能的研究更多处于理论阶段并不实用，随着近些年计算机算力极大增长，这一波技术浪潮会带来更多垂直产业得到应用的落地。Schmidhuber 也将目光瞄向了推动技术成果向商业化应用转化，继续投注他对通用人工智能目标的远大设想。

2014 年，Jürgen Schmidhuber 和他在 IDSIA 共事的四位研究人员共同创办 Nnaisense。根据公司官网说明，Nnaisense 的愿景是「为超人感知和智能自动化打造大规模神经网络解决方案，最终目标是推广基于通用神经网络的人工智能」。在 Schmidhuber 看来，公司这项服务外包给多个行业，从每项工作中掌握的技能就会逐渐汇集成一个可以处理任何问题的系统。

据公开资料显示，Nnaisense 去年营业额为一千万欧元（1100 万美元），并于今年 1 月获得 A 轮融资，由 Mundi Ventures 领投，具体数额并未公开。

「这是真正的人工智能」，他说。虽然离终点还很遥远——它们大约有 10 亿个神经连接，而人类大脑皮层约有 100 万亿神经连接。但计算机每 5 年就会加快 10 倍，如果这一趋势不中断，那么 25 年之后我们就会拥有一个可与人脑媲美的循环神经网络。

而神经网络具有广阔的应用前景，因为计算机视觉和模式识别正在进入数以千计的商业场景中。例如，未来的搜索引擎将会主要依赖于图像和视频输入，而不再是传统的文字搜索。更重要的应用场景是医疗图像识别——它可以让计算机自动检测黑色素瘤、癌症组织、CT 扫描中的斑块（可预防中风），还有数百个医疗相关的领域。

Jürgen Schmidhuber 对深度学习在医疗保健方面的应用非常感兴趣。他认为，全世界超过 10% 的 GDP 都被用在了医疗保健上（每年超过 7 万亿美元），其中昂贵的专家的医疗诊断占到了很大部分。这方面的部分自动化不仅可以节约数十亿美元，还能将专家诊断推广到现在还无力负担的人。在这种背景下，医学最有价值的资产应该就是它们的数据——这就是 IBM 要耗资十亿美元收集这些数据的原因。

机器可以像人类一样学习？

对比 20 世纪影响最深远的发明「哈柏法（Haber Process）」——一种能够从空气中提取氮元素以合成肥料的技术，在 Jürgen Schmidhuber 看来，21 世纪更宏伟的主题在于真正的人工智能。

Jürgen Schmidhuber 说：「用不了几年时间，我们就能够制造出基于神经网络的 AI（NNAI），NNAI 能够通过逐步学习，跟一些动物一样聪明。最终，AI 将改变一切，人类文明只是一个更加恢弘的计划的一部分，整个宇宙迈向越来越不可估量的复杂的过程中，重要（但不是最后）的一步。」

对于人工智能发展的乐观估计，来源于 Jürgen Schmidhuber 对变革性事物发展规律的认知。2014 年，Jürgen Schmidhuber 发现了一个令人难以置信的指数加速模式：宇宙历史中重大事件之间的间隔时间似乎正在以指数级的速度缩短——每个大事件到来的时间是前一个大事件的四分之一。如果你研究这个模式，看起来它将要汇聚于 2050 年。

那么欧米伽年之后会发生什么？「当然，时间不会停止。我的孩子出生在 2000 年左右。一些保险数学家希望她们能看到 2100 年，因为她们是女孩。在她们生命的很大一部分时间里，最聪明和最重要的决策者可能不是人类。」他说，「AI 将比我们更加智能，而且将不再拘泥于我们的生物圈。它们想要将历史推进到一个新的水平高度，并将朝着其他的资源进军。一两百万年以后，它们已经殖民了银河系。」

人工智能会做什么？

太空对人类来说是不友好的，但是对适当设计的机器人则是友好的，并且它比地球周围的生物圈薄膜提供了更多的资源，而这些薄膜所获得的太阳光少于十亿分之一。虽然有一些人工智能将仍然着迷于生活，但只要人们不完全去理解它，大多数人还是会对外太空中为机器人和软件提供的难以置信的新机会感兴趣。通过在小行星带和其他的地方自我复制无数的机器人工厂，它们将会转换太阳系中的其余部分，然后在几百万年内的整个星系记忆几十亿年内的剩余可达宇宙用光速即可到达（人工智能或它的一些部分喜欢以无线电的方式在发送者和传输者之间行进，它们最初的建立所需要的便是时间）。

「上个世纪的许多科幻小说都描绘出一个单独的人工智能能主宰一切的场景。我期望一个令人难以置信的多样化的人工智能，能够优化各部分的冲突（并快速解决）效用函数，它们中大部分是自动生成的（我们在 1000 多年之前已经发展了效用函数）似乎是更加现实的一件事。每一个人工智能都在不断尝试生存，并在由超越当前想象的激烈的竞争与合作驱动的人工智能生态中适应快速变化的环境。」

在 Jürgen Schmidhuber 看来，下一代和年轻人或许希望不要像科幻电影里描述的那样——单独的人工智能可以主宰一切，他们可能希望「我们」和「它们」之间不会有太多的目标冲突。人类和其他生物会对他们可以竞争或合作的目标感兴趣，因为他们有相同的目标。就像政治家最感兴趣的是其他政治家，孩子更感兴趣的是其他同龄的孩子，山羊更感兴趣的是其他的山羊，超级聪明的人工智能将主要对其它超级聪明的人工智能感兴趣，而不是在人类。

而对于人工智能的局限性，Jürgen Schmidhuber 反复提到 1985 年由理论计算机科学的创始人库尔德·哥德尔确定出的可计算的局限，哥德尔说明传统数学要么在特定算法感知上存在缺陷，要么包含了无法通过计算程序证明的真实陈述——无论人类还是人工智能都无法证明。

就像 Ashlee Vance 在《Elon Musk》中对 Musk 的描述，他所有「疯狂」创业举动都不过是坚定地要将儿时有根据的梦想变成现实。Jürgen Schmidhuber 也是在一片质疑声中，仍然坚持，尽管他也常常抱怨当初的拒绝、硅谷的恶性竞争以及对其多年研究价值的忽视。他说，「数十年来我的论文一直都备受争议，所以我已经习惯了这些常见的论调。但很多的神经系统科学家其实并不清楚 AI 世界正在发生什么。」

但是，现在人们开始无法忽视他的观点和看法了。「很快，最聪明和最重要的决策者将不再是人类，我们即将迎来的不是另一次工业革命，而是一种更像是大爆炸的全新生活方式。」在柏林举办的一次探讨机器人与未来的论坛上，Jürgen Schmidhuber 再一次抛出他对未来的预设。

点击阅读原文，报名参与机器之心 GMIS 2017 ↓↓↓

登录查看更多

相关内容

Jürgen Schmidhuber

关注 0

Jürgen Schmidhuber是深度学习的元老级教父，他令世人瞩目的成就是1997年首创LSTM(长短期记忆网络)，被尊称为LSTM之父。LSTM极大革新了深度学习领域，其在很多领域的应用对人工智能产业有里程碑作用。他早在1991年开始研究深度神经网络。Schmidhuber获得过很多奖项，包括2013年国际神经网络协会的亥姆霍兹奖，以及2016年IEEE的神经网络先锋奖。Schmidhuber现担任瑞士人工智能实验室 IDSIA的研发主任，NNAISENSE首席科学家。他是欧洲科学与艺术学院的院士。