【数萃大数据】公众号又开办了一个新栏目,之后我们每周末会为大家分享各种趣闻趣事名人好书。
我们将连续转载史春奇老师高品质的推文。感谢史春奇老师的授权以及对数萃大数据学院的大力支持!
认知科学改写了一帮搞物理的人在做神经网络的局面(参考 ”易图秒懂の连接主义诞生“), 从此以心理学大师Estes的学生,Rumelhart为代表的连接主义的早期工作慢慢成为基础, 以认知科学大佬Christopher的学生Hinton为代表的深度学习登上历史舞台。 深度学习的影响力不是仅仅通过文章来传播的!而是掀起了应用的狂潮~ 因为跨越式效果提示。
前言
前面讲过Rumelhart重新发表了BP backpropagation算法, 从此掀起了连接主义的新时代。 Hinton是其中的重要参与者。
为什么是Rumelhart发明的BP算法?
早早的BP算法被Werbos发明了,多层感知机MLP就可用了, 甚至在Rumelhart之前, Hinton的学生Yann Lecun也号称重新发明了BP算法, 为啥不是他们?
最重要的是Rumelhart受到Grossberg的影响(这个Grossberg就是ART的发明人, 他对Hopfield网络时代的成果进行了广泛的总结), 默认激活函数就应该是sigmoid函数。 如果默认是Sigmoid函数之后, 利用Sigmoid函数导数的良好性质。 Rumelhart的BP算法的形式极其极其的简单! 易经告诉我们, 简而易从, 易从则有功, 有功乃大! 这就是为什么是Rumelhart!
Sigmoid函数就是标准logistic函数, 它的导数的形式真是简单。
再回到Lecun的贡献, Lecun给出了BP算法详细的梯度下降的分析, 所以Lecun这种对性能追求的态度也是一种很大的贡献。
再回到Werbos的贡献,他给出了导数递归求解的形式,但是相对比较复杂, 也没有相关性能分析解释, 只是一堆自己很理解的公式。
这样, 我们开始回顾BP盛行后带来什么问题导致了深度学习的爆发?
一图抵千言
前面讲过在Hopfield网络发展出来的Elman网络就是SRN,简单递归网络。 出现了BPTT,EKF和RTRL三大算法。 但是实际应用的效果却非常不好!有个做语音识别的叫Schmidhuber的家伙,带着他的硕士学生Hchreiter,就开始认知的生成图片分析到底什么问题!结果这个叫Hchreiter的硕士很给力, 画除了各种效果图, 在硕士论文中把问题写清楚了, 是梯度消失或者爆炸。
前面不是讲到新的Rumelhart的BP算法时代, 默认的激活函数是Sigmoid函数, 这样就会连续多次求导之后乘积就会带来要么指数消失,要么指数爆炸的情况。 为了解决这个问题, 这个硕士生Hchreiter很给力, 利用记忆学习的思路, 搞出了LSTM的模型, 一应用,效果很好!从此Schmidhuber他开启了各种应用。 后来还开了公司Nnaisense搞自动驾驶,聘请了他的学生来做顾问。 另外他的类似堂吉柯德的自画像和他按照Godel的思想搞得Godel Machine也很有意思。并且他还最早提出了Pretraining的思想, 不过是应用到RNN上面的 。
虽然Hochreiter发现并且发表了这个梯度消失的问题, 但是却是德文的, 影响力大打折扣。 并且也没有太混连接主义的圈子。 真正开启影响的是Bengio。 Bengio是利用神经网络做自然语言处理的大师, 他在利用RNN做Long Term Dependency的问题也发现了梯度消失了。 而这个Bengio就是Rumerhart学生Jordan的博士后。 这一下子就接触了连接主义的核心圈子了。 那时候, 这些核心圈的人Jordan还有Hinton在做贝叶斯网络图模型的(参考”给能量以自由吧!“ 系列)。
但是Hinton很快就扬弃了图模型, 开始转到神经网络,他基于Hopfield网络的一个变形叫BAM模型, 引入了Boltzmann概率分布函数(参考”信息熵的由来“), 变成了概率模型。 并且提出了一系列的训练方法。 Hinton非常实干, 他搞东西,不局限在发表,他会发展很多技术去改进优化。 另外一个认知科学家家叫Smolensky的简化了Hinton的Boltzmann Machine模型, 生成了Restricted Boltzmann模型RBM模型。 刚好Hinton之前搞过基于Sigmoid的递归模型叫DBN Deep Belief Network, Hinton把这两个一嫁接, 搞错了DBM模型。 然后又利用了Pretrain训练, 就有了这个模型完整的学习, 他一个学生在微软实习的时候, 发现在语音识别方面效果很好。 Hinton就把基于这种复杂模型的学习命名为深度学习, 从此开启了深度学习的时代。
小结
通过对以Hopfield网络时代,神经网络学习效果不好的情况的分析, 找到了梯度消失的问题, 同时Hinton发现效果好的复杂模型, 定义了深度学习。 后续我们讲深度学习的初期发展。
欢迎大家关注微信公众号:数萃大数据
网络爬虫与文本挖掘培训班【宁波站】
时间:2017年9月23日-25日
地点:维也纳国际酒店(机场店)
更多详情,请扫描下面二维码