70岁Hinton还在努力推翻自己积累了30年的学术成果，他让我知道了什么叫做生命力

会员服务 ·

70岁Hinton还在努力推翻自己积累了30年的学术成果，他让我知道了什么叫做生命力

2020 年 11 月 15 日 深度学习自然语言处理

点击上方，选择星标或置顶，每天给你送干货！

阅读大概需要5分钟

跟随小博主，每天进步一丢丢

来源：算法与数学之美（ID：MathAndAlgorithm）

近日，Hinton的那篇Capsule论文终于揭下了神秘的面纱，也因为该篇论文，他被刊进了各大媒体的头版头条。

在论文中，Capsule被Hinton大神定义为这样一组神经元：其活动向量所表示的是特定实体类型的实例化参数。

他的实验表明，鉴别式训练的多层Capsule系统，在MNIST手写数据集上表现出目前最先进的性能，并且在识别高度重叠数字的效果要远好于CNN。

该论文无疑将是今年12月初NIPS大会的重头戏。

不过，对于这篇论文的预热，Hinton大神可是早有准备。

一个月前，在多伦多接受媒体采访时， Hinton大神断然宣称要放弃反向传播，让整个人工智能从头再造。不明就里的媒体们顿时蒙圈不少。

8月份的时候，Hinton大神还用一场“卷积神经网络都有哪些问题？”的演讲来介绍他手中的Capsule研究，他认为“CNN的特征提取层与次抽样层交叉存取，将相同类型的相邻特征检测器的输出汇集到一起”是大有问题的。

当时的演讲中，Hinton大神可没少提CNN之父Yann LeCun的不同观点。毕竟，当前的CNN一味追求识别率，对于图像内容的“理解”帮助有限。

而要进一步推进人工智能，让它能像人脑一样理解图像内容、构建抽象逻辑，仅仅是认出像素的排序肯定是不够的，必须要找到方法来对其中的内容进行良好的表示……这就意味着新的方法和技术。

而当前的深度学习理论，自从Hinton大神在2007年（先以受限玻尔兹曼机进行训练、再用有监督的反向传播算法进行调优）确立起来后，除了神经网络结构上的小修小改，很多进展都集中在梯度流上。

正如知乎大V“SIY.Z”在《浅析Hinton最近提出的Capsule计划》时所举的例子。（https://zhuanlan.zhihu.com/p/29435406）

sigmoid会饱和，造成梯度消失。于是有了ReLU。

ReLU负半轴是死区，造成梯度变0。于是有了LeakyReLU，PReLU。

强调梯度和权值分布的稳定性，由此有了ELU，以及较新的SELU。

太深了，梯度传不下去，于是有了highway。

干脆连highway的参数都不要，直接变残差，于是有了ResNet。

强行稳定参数的均值和方差，于是有了BatchNorm。

在梯度流中增加噪声，于是有了 Dropout。

RNN梯度不稳定，于是加几个通路和门控，于是有了LSTM。

LSTM简化一下，有了GRU。

GAN的JS散度有问题，会导致梯度消失或无效，于是有了WGAN。

WGAN对梯度的clip有问题，于是有了WGAN-GP。