不懂图像分类？这四种卷积神经网络模型了解一下！

2018 年 10 月 15 日 云栖社区

摘要：不懂图像分类？这四种卷积神经网络模型了解一下！

服装购买是一种繁重的体验，眼睛被太多的信息占据了。视觉系统吸收了大量信息，我应该去卖哪件H＆M卡其裤吗？那是Nike背心吗？

机器能自动检测衬衫、裤子、连衣裙和运动鞋的图片吗？事实证明，用高质量的训练数据对机器进行训练，准确地对时尚物品的图像进行分类是可行的。在本教程中，我们将从头开始构建一个机器学习模型，使用Fashion-MNIST数据集训练它们。我们将介绍如何训练模型、设计类别分类的输入和输出，最后显示每个模型的准确度结果。

图像分类

图像分类是这样的：给定一组全部用单一类别标记的图像，我们要求为一组新的测试图像预测它们到底是什么类别？并测量预测的准确性。这项任务涉及各种挑战，包括视点变化、尺度变化、类内变化、图像变形、图像遮挡、光照条件、背景杂波等。

我们如何编写可以将图像分类为不同类别的算法？计算机视觉研究人员已经提出了一种数据驱动方法来解决这个问题。它们不是试图直接在代码中指定每个感兴趣的图像类别，而是为计算机提供每个图像类的许多示例，然后开发学习算法，查看这些示例并了解每个类的视觉外观。换句话说，他们首先累积标记图像的训练数据集，然后将其提供给计算机，以使其熟悉数据。

鉴于这一事实，完整的图像分类管道可以形式化如下：

输入是一个训练数据集，由N个图像组成，每个图像都标有K个不同类别中的一个。
然后，我们使用此训练集来训练分类器，以了解每个类的外观。
最后，我们通过要求分类器预测从未见过的一组新图像的标签来评估分类器的质量。然后，我们将比较这些图像的真实标签与分类器预测的标签。

卷积神经网络

卷积神经网络（CNN）是用于图像分类问题的最流行的神经网络模型。CNN背后的一个重要思想是，对图像的局部理解是好的。实际的好处是，参数少将大大缩短了学习所需的时间，并减少了训练模型所需的数据量。CNN具有足够的权重来查看图像的小块，而不是来自每个像素的完全连接的权重网络。

比如一个256 x 256的图像。CNN可以通过局部有效地扫描它，例如，用一个5×5的窗口，通常从左到右，从上到下，如下图所示。它如何“快速”滑动称为其步幅。例如，步幅长度2表示5×5滑动窗口一次移动2个像素，直到它跨越整个图像。

卷积是图像的像素值的加权和，事实证明，整个带有权重矩阵的图像的卷积过程会产生另一个图像。

滑动窗口发生在神经网络的卷积层中，典型的CNN具有多个卷积层。每个卷积层通常产生许多交替卷积，因此权重矩阵是5×5×n的张量，其中n是卷积数。

例如，假设图像通过5×5×64的权重矩阵上的卷积层。它通过滑动5×5窗口生成64个卷积。因此，该模型具有5×5×64=1,600个参数，其参数明显少于完全连接的网络，256×256=65,536个。

CNN的优点在于参数的数量与原始图像的大小无关。你可以在300×300图像上运行相同的CNN，但卷积层中的参数数量不会改变。

数据增强（data augmentation）

图像分类研究数据集通常是非常大的。然而，经常使用数据增强来改善泛化属性。通常，使用重新缩放图像的随机裁剪以及随机水平闪烁和随机RGB颜色和亮度偏移。这其中存在用于重新缩放和裁剪图像的不同方案（即，单一规模与多规模训练）。请注意，随机重新缩放和裁剪的目标是学习不同尺度和位置的每个对象的重要特征，不幸的是Keras没有实现所有这些开箱即用的数据增强技术，

Fashion MNIST数据集

最近，Zalando发布了一个新的数据集，它与众所周知的MNIST手写数字数据库非常相似。该数据集专为机器学习分类任务而设计，包含总共60000个训练和10000个测试图像（灰度），每个28x28像素。每个训练和测试用例与十个标签之一（0-9）相关联。直到这里，Zalando的数据集基本上与原始手写数字数据相同。然而，Zalando的数据不包含数字0-9的图像，而是包含10种不同时尚产品的图像。因此，数据集称为Fashion-MNIST数据集，可以从GitHub下载。这些数据也可以在Kaggle上下载。下图中显示了一些示例，其中每行包含一个时尚项。

10个不同的类别标签是：

1、T恤/上衣；2、裤子；3、套头衫；4、连衣裙；5、外套；

6、凉鞋；7、衬衫；8、运动鞋；9、袋；10、靴子；

据作者称，Fashion-MNIST数据旨在成为旧MNIST手写数字数据的直接替代品，因为手写数字存在若干问题。例如，通过简单地查看几个像素，可以正确地区分几个数字。即使使用线性分类器，也可以实现高分类精度。Fashion-MNIST数据有望更加多样化，因此机器学习（ML）算法必须学习更多高级特征，以便能够可靠地分离各个类。

时尚MNIST的嵌入可视化（Embedding Visualization）

嵌入是一种将离散对象（图像，单词等）映射到高维向量的方法。这些载体中的各个维度通常没有固有的含义。相反，它是机器学习利用向量之间的位置和距离的整体模式。因此，嵌入对于机器学习的输入很重要;因为分类器和神经网络更普遍地用于实数矢量。它们在密集向量上训练最好，其中所有值都有助于定义对象。

TensorBoard有一个内置的可视化器，称为嵌入式可视化工具(Embedding Projector)，用于交互式可视化和分析嵌入等高维数据。嵌入式可视化工具将从我的模型检查点文件中读取嵌入，虽然它对嵌入最有用，但它会加载任何2D张量，包括训练权重。

在这里，我将尝试使用TensorBoard表示高维时尚MNIST数据。在读取数据并创建测试标签后，我使用此代码构建TensorBoard的嵌入投影仪：

嵌入可视化工具有三种减少数据集维数的方法：两个线性和一个非线性。每种方法都可用于创建二维或三维视图。

主成分分析：主成分分析（PCA）是一种简单的减小尺寸的技术。嵌入可视化工具有10个主要组件。PCA是一种线性可视化效果，通常可用于检查全局几何。

t-SNE：这是一种流行的非线性降维技术是t-SNE。嵌入可视化工具提供二维和三维t-SNE视图。在客户端执行局部动画算法的每个步骤，因为t-SNE通常保留一些局部结构，所以它对于探索局部邻域和寻找聚类是有用的。

自定义（custom）：我们还可以根据文本搜索构建专门的线性可视化，以便在空间中找到有意义的方向。首先定义可视轴，接着输入两个搜索字符串或正则表达式。程序计算其标签与这些搜索匹配的点集的质心，并使用质心之间的差矢量作为可视轴。

你可以在此笔记本中查看可视化步骤的完整代码：TensorBoard-Visualization.ipynb

在时尚MNIST上训练CNN模型

现在让我们转到有趣的部分：我将创建各种不同的基于CNN的分类模型来评估Fashion MNIST的表现。我将使用Keras框架构建我们的模型，关于它的更多信息，请参阅此处的文档。以下是我将尝试的模型列表，并比较它们的结果：

1.具有1个卷积层的CNN；

2.具有3个卷积层的CNN；

3.有4个卷积层的CNN；

4.VGG-19预训练模型；

对于所有模型（预训练模型除外），这是我常用的方式：

将原始训练数据（60,000张图像）分成80％训练集（48,000张图像）和20％验证集（12000张图像）优化分类器，同时保留测试数据（10,000张图像）以最终评估模型对数据的准确性从未见过。这有助于了解我是否过度拟合训练数据，以及如果验证准确度高于训练准确度。
训练模型10个epoch，批量大小为256，使用categorical_crossentropy损失函数和Adam优化器。
然后，添加数据增强，通过旋转、移动和缩放训练样本生成新的训练样本，并在更新的数据上训练模型另外50个epoch。

这是加载和增强数据的代码：

在加载和增强数据之后，我通过将它们重新重构为网络所需的形状并对其进行缩放以使所有值都在[0,1]间隔中来对它们进行预处理。例如，以前，训练数据存储在uint8类型的形状（60000,28,28）的数组中，其值在[0,255]间隔中。我将它转换为float32数组形状（60000,28 * 28），其值介于0和1之间。

1-1-Conv CNN

以下是具有1个卷积层的CNN的代码：

训练模型后，这里是test loss和测试精度：

应用数据增强后，这里是测试损失和测试准确度：

出于视觉目的，我绘制了训练和验证的准确性和损失：

你可以在此笔记本上查看此型号的完整代码：CNN-1Conv.ipynb

2-3-Conv CNN

以下是CNN与3卷积层的代码：

训练模型后，这里是test loss和测试精度：

应用数据增强后，这里是测试损失和测试准确度：

出于视觉目的，我绘制了训练和验证的准确性和损失：

你可以在此笔记本上查看此型号的完整代码：CNN-3Conv.ipynb

3-4-Conv CNN

以下是具有4个卷积层的CNN的代码：

训练模型后，这里是test loss和测试精度：

应用数据增强后，这里是测试损失和测试准确度：

出于视觉目的，我绘制了训练和验证的准确性和损失：

你可以在此笔记本上查看此型号的完整代码：CNN-4Conv.ipynb

4–迁移学习

对小图像数据集进行深度学习的常用且高效的方法是使用预先训练的网络。一个预先训练网络是以前训练的大型数据集，通常在大型图像分类任务保存的网络。如果这个原始数据集足够大且足够通用，则预训练网络所学习的特征的空间层次结构可以有效地充当视觉世界的通用模型，因此其特征可以证明对于许多不同的计算机视觉问题是有用的。即使这些新问题可能涉及与原始任务完全不同的类。

我试图实现VGG19预训练模型，这是ImageNet广泛使用的ConvNets架构。这是你可以遵循的代码：