人工智能名人堂第55期 | BP算法之父： Paul J. Werbos

2017 年 12 月 4 日 德先生

丘吉尔曾说过，“The longer you can look back, the farther you can look forward. (回顾历史越久远，展望未来就越深远)”，为纪念人工智能领域做出杰出贡献的先辈与开拓者们，鼓励更多后起之秀投身该领域，人工智能国际杂志《IEEE Intelligent Systems》自2006年始至今陆续推选出了60位人工智能专家(参看《诺伯特·维纳奖得主王飞跃 | AI 名人堂，世界人工智能60年60位名人榜》)。德先生自2016年10月31日起，已定期于每周一在微信公众号（D-Technologies）上发布人工智能名人堂60位成员的相关介绍。往期内容可查看延伸阅读。

Paul J. Werbos，1947年出生于美国。他是自适应智能系统领域的一名国际知名专家，因在1974年的哈佛大学博士论文中首先提出通过反向传播算法来训练人工神经网络而闻名。同时，他也是循环神经网络（Recurrent Neural Network，RNN）的先驱，并担任IEEE计算机智能协会委员会委员和美国国家自然科学基金委委员等职。

人物生平

Paul Werbos在中学和高中期间就自学了很多大学的课程，进入大学后，跟随著名的数学和逻辑学家Alonzo Church学习了关于逻辑的研究生课程，这些都为他成为一名数学家奠定了基础。

当他得知推理逻辑对研究的限制之后，他开始探索归纳逻辑和智能方面的知识。凭借用数理经济学模型研究分布智能及其他更深的认识，使他在哈佛和伦敦政治经济学院获得了两个经济学学位。在哈佛攻读理科硕士期间，他师从Julian Schwinger学习了关于量子场论的课程，但直到他在美国国家科学基金开展了关于量子科技和模型方面的活动之后，他才真正明白这方面的知识。

1974年，在他哈佛大学的博士论文里，他提出了更具影响力、并且从生物学角度来说更有道理的强化学习系统——通过将模拟脑神经元网络运用到包括价值函数在内的ADP研究中，这在当时是非常新颖的思想。为了开展从生物学上局部可行的ADP研究，他将Freud的精神能量理论翻译成后来被称为反向传播的算法以及关于有序导数的链式法则，这种链式法则是一种严密的综合理论，后来成为自动微分和电路级微分里非常有名的倒序法或者伴随法。他在推进ADP研究、反向传播算法和类大脑预测方面花费了很多时间，目的在于拓展并展示能够真实解释一般智力——能够在大脑中或者人类主观实践中观察到的智力的设计，同时提出利用生物实验来检验这些理论。为了寻求能源、持续发展和空间领域的实际运用，他深入这些领域（详见http://www.werbos.com/），并担任了美国国家太空协会、千年计划、Lifeboat基金会以及美国电气和电子工程师协会能源政策委员会的委员，同时他还是2009年美国参议院的议员。

1980-1989年间，他提出了两个重要的计量预测模型（两个模型都基于反向传播算法），同时担任美国电子工业协会（隶属于美国能源部）未来长期计划的首席分析员。他是美国电气和电子工程师协会（IEEE）和国际神经网络协会（INNS）会士，曾获得美国电气和电子工程师协会神经网络先驱奖和国际神经网络协会2011 Hebb奖，其中Hebb奖是国际神经网络协会的最高奖项，用于鼓励为生物学习系统领域作出突出贡献的人们。

研究领域

1.BP神经网络(Back Propagation)

在神经网络（甚至深度学习）参数训练中，BP(Back Propagation)算法非常重要，它都占据举足轻重的地位。在提及BP算法时，我们常将它与杰弗里•辛顿（Geoffrey Hinton）的名字联系在一起。但实际上，辛顿还真不是第一个提出BP算法的人，就像爱迪生不是第一个发明电灯的人一样。但人们记住的，永远都是那个让电灯“飞入平常百姓家”的功勋人物爱迪生，而不是它的第一发明人美国人亨利·戈培尔。

如果说辛顿就是BP算法的“爱迪生”，那谁是BP算法的“戈培尔”呢？他就是Paul Werbos。1974年，Werbos在哈佛大学博士毕业。在他的博士论文里，首次提出了通过误差的反向传播来训练人工神经网络。事实上，Werbos不光是BP算法的开创者，他还是循环神经网络（Recurrent Neural Network，RNN）的早期开拓者之一。

“反向传播算法”（Backpropagation Algorithm，简称BP 算法）是一种监督学习算法，常被用来训练多层感知机，由上世纪60年代早期多位研究人员提出，70年代，由Seppo Linnainmaa引入电脑运行，但是，Paul Werbos在1974年的博士毕业论文中深刻分析了将之用于神经网络方面的可能性，成为美国第一位提出可以将其用于神经网络的研究人员，因此，他后来得到了IEEE 神经网络学会的先驱奖。有趣的是，他从模拟人类思维的研究工作中并没有获得多少启发，在这个案例中，弗洛伊德心理学理论启发了他。

尽管解决了如何训练多层神经网络的问题，在写作自己的博士学位论文时也意识到了这一点，但是，Werbos没有发表将BP算法用于神经网络这方面的研究，直到1982年人工智能冬天引发了寒蝉效应。实际上，Werbos认为，这种研究进路对解决感知机问题是有意义的，但是，这个圈子大体已经失去解决那些问题的信念。由于当时正值神经外网络低潮期，他的想法并未受到应有的重视。尽管如此，Werbos也把神经网络带入一个新纪元。上世纪八九十年代，人工神经网络的研究迎来了一场大火，学术圈发了成千上万篇关于神经网络的论文，从设计到训练到优化再到各行各业的应用。上世纪末的学术圈，如果出门不说自己搞神经网络的都不好意思跟人打招呼，就和如今的深度学习、大数据分析一样。

2.自适应动态规划（Adaptive Dynamic Programming, ADP）

自适应动态规划（Adaptive Dynamic Programming, ADP）由Paul Werbos在1977年首次提出，是机器学习的重要分支——强化学习算法的理论基石。该方法以最优性原理为基础，融合人工智能的先进方法，模拟人通过环境反馈进行学习的思路，有效地解决了动态规划“维数灾”的问题。近年来，自适应动态规划被认为是一种非常接近人脑智能的自学习最优控制方法，并得到了广泛的关注。

其主要原理基于人工神经网络能以任意精度逼近非线性函数的特性，通过单步计算估计动态规划一段时间序列的性能指标函数，有效地解决了动态规划计算“维数灾”的难题，为高维复杂系统的最优控制提供了一种切实可行的理论和方法。

自适应动态规划诞生后不久便受到人们的广泛重视，也产生了很多同义名称，如Approximate dynamic programming、Asymptotic dynamic programming 、Neuro dynamic programming等。在2006年美国科学基金会组织的“2006NSF Workshop and Outreach Tutorials on Approximate Dynamic Programming”研讨会上，建议将该方法统一为 Adaptive dynamic programming。自适应动态规划是人工神经网络、最优控制和强化学习相融合产生的交叉领域，也可以认为是离散领域的强化学习在连续领域的扩展。自适应动态规划在各种复杂控制领域得到了广泛应用，包括飞机的自动降落控制、多个电梯的调度控制、无线通讯网络的控制、智能交通系统的控制与管理等。（详情请点击周末读书 | 中科院自动化所刘德荣教授团队：自适应动态规划方法的研究进展）

部分资料参考：机器之心，阿里云云栖社区，版权归原作者所有，如有侵权请联系小编删除。

📚往期文章推荐

🔗人工智能名人堂第54期 | 深度学习鼻祖：Geoffrey Hinton

🔗人工智能名人堂第53期 | 万维网之父：蒂姆·伯纳斯·李

🔗人工智能名人堂第52期 | SHRDLU系统之父：Terry Winograd

🔗人工智能名人堂第51期 | 潘云鹤院士详解人工智能发展

🔗人工智能名人堂第50期 | 李德毅：AI润物无声地改变整个世界

🔗人工智能名人堂第49期 | 斯坦福研究院名人堂成员：Peter E. Hart

🔗人工智能名人堂第48期 |首获图灵奖的亚裔科学家：Raj Reddy

🔗人工智能名人堂第47期 | Shakey机器人共同发明者：Bertram Raphael

🔗人工智能名人堂第46期 | 机器学习泰斗：弗拉基米尔·万普尼克

🔗人工智能名人堂第45期 | AAAI前主席：丹尼尔·鲍勃罗

🔗人工智能名人堂第44期 | 知识工程奠基者：爱德华·费根鲍姆

德先生公众号｜往期精选

在公众号会话位置回复以下关键词，查看德先生往期文章！

人工智能｜机器崛起｜区块链｜名人堂

虚拟现实｜无人驾驶｜智能制造｜无人机

科研创新｜网络安全｜数据时代｜人机大战

……

更多精彩文章正在赶来，敬请期待！

点击“阅读原文”，移步求知书店，可查阅选购德先生推荐书籍。

登录查看更多

相关内容

反向传播

关注 354

反向传播一词严格来说仅指用于计算梯度的算法，而不是指如何使用梯度。但是该术语通常被宽松地指整个学习算法，包括如何使用梯度，例如通过随机梯度下降。反向传播将增量计算概括为增量规则中的增量规则，该规则是反向传播的单层版本，然后通过自动微分进行广义化，其中反向传播是反向累积（或“反向模式”）的特例。在机器学习中，反向传播（backprop）是一种广泛用于训练前馈神经网络以进行监督学习的算法。对于其他人工神经网络（ANN）都存在反向传播的一般化–一类算法，通常称为“反向传播”。反向传播算法的工作原理是，通过链规则计算损失函数相对于每个权重的梯度，一次计算一层，从最后一层开始向后迭代，以避免链规则中中间项的冗余计算。

【DeepMind硬核课】深度学习注意力与记忆机制，附70页ppt与视频

专知会员服务

172+阅读 · 2020年6月25日

【Yoshua Bengio-先验意识论文最新版本】The Consciousness Prior，Yoshua Bengio

专知会员服务

20+阅读 · 2019年12月12日

【MLA 2019】学习因果关系与因果关系学习（Learning Causality and Learning with Causality: A Road to Intelligence）美国卡内基梅隆大学，张坤

专知会员服务

126+阅读 · 2019年11月16日

【纽约大学-AI研讨会】现代人工智能（Modern Artificial Intelligence）

专知会员服务

27+阅读 · 2019年11月10日