深度剖析卷积神经网络

2018 年 5 月 27 日 云栖社区

云栖君导读：深度了解卷积神经网络各个组件，顺带自建一个属于自己的神经网络。

最先进的图像识别体系结构采用了许多附加组件来补充卷积操作。在这篇文章中，你将了解到一些能够提高现代卷积神经网络速度和精度的重要的组件。

Pooling

使CNN非常高效的第一个秘密就是Pooling。Pooling是像卷积一样，用于对图像的每个局部区域标量变换的一种矢量。与卷积不同的是它们没有filters，也不用局部区域计算点积，而是计算平均值（Average Pooling）中的像素，或者只是选择强度最高的像素并丢弃剩余的像素（Max Pooling）。

Max Pooling近年来效果最好，它以某个地区的最大像素代表该地区最重要的特征为理论基础。通常我们希望分类的物体图像可能包含许多其他物体，例如，出现在汽车图像某处的猫可能会误导分类器，Pooling有助于缓解这种影响。

同时，它也大大降低了计算成本。通常，网络中每层的图像大小与每层的计算成本（触发器）成正比。分段卷积有时用作pooling的代替物,随着图层变得更深，Pooling会减少图像的尺寸，因此，它有助于防止网络需要的触发器数量激增。

Dropout

过度拟合是指由于过度依赖训练集中的某些特定功能导致的网络在训练集上运行良好，但在测试集上表现不佳的一种现象。Dropout是一种对抗过度拟合的技术。它可以随机地将一些激活值设置为0，迫使网络探索更多的方式来分类图像，而不是过度依赖一些功能。它也是AlesNet中的关键元素之一。

Batch Normalization

神经网络的一个主要问题是梯度消失。来自Google Brain的Ioffe和Szegedy发现，这主要是由于内部协变量变化导致的信息通过网络传播而引起的的变化数据分布的现象。他们所做的是称为Batch Normalization的技术，通过将每批图像标准化为具有零均值和单位差异来工作。

它通常放置在cnns的非线性（relu）之前。它极大地提高了准确性，同时极大地加快了训练过程。

数据增强

人类视觉系统在适应图像平移，旋转和其他形式的扭曲方面非常出色，拍摄图像并翻转它，大多数人仍然可以识别它。然而，covnets并不善于处理这种扭曲，他们可能会由于小的翻转而失败。但是通过随机扭曲图像训练，使用水平翻转，垂直翻转，旋转，移位和其他扭曲，将会使covnets学会如何处理这种扭曲。

另一种常用方法是从每幅图像中减去平均图像，然后除以标准差。

接下来将解释如何理由Keras来实现它们。

在这篇文章中，所有的实验都将在一个包含60000个32*32GB图像的CIFAR10数据集上进行。它分为50000个训练图像和10000个测试图像，为了让事情更加模块化，我们为每个图层创建一个简单的函数：

这里是我们的代码最重要的方面，单元函数定义了一个简单的图层，其中包含三个层次，第一个是我先前解释的Batch Normalization，接下来我们添加RELU激活，最后添加卷积，注意我是怎样用“预激活”的方式把RELU放在conv之前的。

现在我们将把这些单位层组合成一个模型：

在这里，我们使用功能性API来定义我们的模型，我们从三个单元格开始，每个单元格有64个过滤器，后面是一个Max Pooling layer，将32*32图像缩小到16*16。接下来是3128个过滤器单元，然后是Pooling,在这里，我们的图像变成8*8。最后，我们有另外3个单元，256通道。请注意，每当我们将图像尺寸缩小2倍时，我们将通道数增加一倍。

我们添加0.5的dropout，这将随机取消50%的参数，正如我之前解释的那样，它可以避免过度拟合。

接下来，我们需要加载cifar10数据集并执行一些数据进行增强：