易图秒懂の深度学习诞生问题篇

2017 年 9 月 2 日 数萃大数据 史春奇

【数萃大数据】公众号又开办了一个新栏目，之后我们每周末会为大家分享各种趣闻趣事名人好书。

我们将连续转载史春奇老师高品质的推文。感谢史春奇老师的授权以及对数萃大数据学院的大力支持！

认知科学改写了一帮搞物理的人在做神经网络的局面（参考 ”易图秒懂の连接主义诞生“），从此以心理学大师Estes的学生，Rumelhart为代表的连接主义的早期工作慢慢成为基础，以认知科学大佬Christopher的学生Hinton为代表的深度学习登上历史舞台。深度学习的影响力不是仅仅通过文章来传播的！而是掀起了应用的狂潮~ 因为跨越式效果提示。

前言

前面讲过Rumelhart重新发表了BP backpropagation算法，从此掀起了连接主义的新时代。 Hinton是其中的重要参与者。

为什么是Rumelhart发明的BP算法？

早早的BP算法被Werbos发明了，多层感知机MLP就可用了，甚至在Rumelhart之前， Hinton的学生Yann Lecun也号称重新发明了BP算法，为啥不是他们？

最重要的是Rumelhart受到Grossberg的影响（这个Grossberg就是ART的发明人，他对Hopfield网络时代的成果进行了广泛的总结），默认激活函数就应该是sigmoid函数。如果默认是Sigmoid函数之后，利用Sigmoid函数导数的良好性质。 Rumelhart的BP算法的形式极其极其的简单！易经告诉我们，简而易从，易从则有功，有功乃大！这就是为什么是Rumelhart！

Sigmoid函数就是标准logistic函数，它的导数的形式真是简单。

再回到Lecun的贡献， Lecun给出了BP算法详细的梯度下降的分析，所以Lecun这种对性能追求的态度也是一种很大的贡献。

再回到Werbos的贡献，他给出了导数递归求解的形式，但是相对比较复杂，也没有相关性能分析解释，只是一堆自己很理解的公式。

这样，我们开始回顾BP盛行后带来什么问题导致了深度学习的爆发？

一图抵千言

前面讲过在Hopfield网络发展出来的Elman网络就是SRN，简单递归网络。出现了BPTT，EKF和RTRL三大算法。但是实际应用的效果却非常不好！有个做语音识别的叫Schmidhuber的家伙，带着他的硕士学生Hchreiter，就开始认知的生成图片分析到底什么问题！结果这个叫Hchreiter的硕士很给力，画除了各种效果图，在硕士论文中把问题写清楚了，是梯度消失或者爆炸。

前面不是讲到新的Rumelhart的BP算法时代，默认的激活函数是Sigmoid函数，这样就会连续多次求导之后乘积就会带来要么指数消失，要么指数爆炸的情况。为了解决这个问题，这个硕士生Hchreiter很给力，利用记忆学习的思路，搞出了LSTM的模型，一应用，效果很好！从此Schmidhuber他开启了各种应用。后来还开了公司Nnaisense搞自动驾驶，聘请了他的学生来做顾问。另外他的类似堂吉柯德的自画像和他按照Godel的思想搞得Godel Machine也很有意思。并且他还最早提出了Pretraining的思想，不过是应用到RNN上面的。

虽然Hochreiter发现并且发表了这个梯度消失的问题，但是却是德文的，影响力大打折扣。并且也没有太混连接主义的圈子。真正开启影响的是Bengio。 Bengio是利用神经网络做自然语言处理的大师，他在利用RNN做Long Term Dependency的问题也发现了梯度消失了。而这个Bengio就是Rumerhart学生Jordan的博士后。这一下子就接触了连接主义的核心圈子了。那时候，这些核心圈的人Jordan还有Hinton在做贝叶斯网络图模型的（参考”给能量以自由吧！“ 系列）。

但是Hinton很快就扬弃了图模型，开始转到神经网络，他基于Hopfield网络的一个变形叫BAM模型，引入了Boltzmann概率分布函数（参考”信息熵的由来“），变成了概率模型。并且提出了一系列的训练方法。 Hinton非常实干，他搞东西，不局限在发表，他会发展很多技术去改进优化。另外一个认知科学家家叫Smolensky的简化了Hinton的Boltzmann Machine模型，生成了Restricted Boltzmann模型RBM模型。刚好Hinton之前搞过基于Sigmoid的递归模型叫DBN Deep Belief Network， Hinton把这两个一嫁接，搞错了DBM模型。然后又利用了Pretrain训练，就有了这个模型完整的学习，他一个学生在微软实习的时候，发现在语音识别方面效果很好。 Hinton就把基于这种复杂模型的学习命名为深度学习，从此开启了深度学习的时代。