整个代码已经放在了我的GitHub上,建议可以把代码pull下来,边看文章边看代码。GitHub地址:https://github.com/NELSONZHAO/zhihu/tree/master/cifar_cnn
提到图像分类,我们可能会想到传统机器学习中KNN算法,通过找到当前待分类图像的K个近邻,以近邻的类别判断当前图像的类别。
由于我们的图像实际上是由一个一个像素组成的,因此每一个图像可以看做是一个向量,那么我们此时就可以来计算向量(图片)之间的距离。比如,我们的图片如果是32x32像素的,那么可以展开成一个1x1024的向量,就可以计算这些向量间的L1或者L2距离,找到它们的近邻,从而根据近邻的类别来判断图像的类别。以下例子中K=5。
下面我们就来用scikit-learn实现以下KNN对图像的分类。首先我们需要下载数据文件,网址为 https://www.cs.toronto.edu/~kriz/ci 我们数据包含了60000万图片,每张图片的维度为32 x 32 x 3,这些图片都有各自的标注,一共分为了以下十类:
airplane
automobile
bird
cat
deer
dog
frog
horse
ship
truck
数据是被序列化以后存储的,因此我们需要使用Python中的pickle包将它们读进来。整个压缩包解压以后,会有5个data_batch和1个test_batch。我们首先把数据加载进来:
我们定义了一个函数来获取batch中的features和labels,通过上面的步骤,我们就可以获得train数据与test数据。
我们的每个图片的维度是32 x 32 x 3,其中3代表RGB。我们先来看一些这些图片长什么样子.
每张图片的像素其实很低,缩小以后我们可以看到图片中有汽车,马,飞机等。
构造好了我们的x_train, y_train, x_test以及y_test以后,我们就可以开始建模过程。在将图片扔进模型之前,我们首先要对数据进行预处理,包括重塑和归一化两步,首先将32 x 32 x 3转化为一个3072维的向量,再对数据进行归一化,归一化的目的在于计算距离时保证各个维度的量纲一致。
到此为止,我们已经对数据进行了预处理,下面就可以调用KNN来进行训练,我分别采用了K=1,3,5来看模型的效果。
从KNN的分类准确率来看,是要比我们随机猜测类别提高了不少。我们随机猜测图片类别时,准确率大概是10%,KNN方式的图片分类可以将准确率提高到35%左右。当然有兴趣的小伙伴还可以去测试一下其他的K值,同时在上面的算法中,默认距离衡量方式是欧式距离,还可以尝试其他度量距离来进行建模。
虽然KNN在test数据集上表现有所提升,但是这个准确率还是太低了。除此之外,KNN有一个缺点,就是所有的计算时间都在predict阶段,当一个新的图来的时候,涉及到大量的距离计算,这就意味着一旦我们要拿它来进行图像识别,那可能要等非常久才能拿到结果,而且还不是那么的准。
在上一部分,我们用了非常简单的KNN思想实现了图像分类。在这个部分,我们将通过卷积神经网络来实现一个更加准确、高效的模型。
加载数据的过程与上一部分相同,不再赘述。当我们将数据加载完毕后,首先要做以下三件事:
对输入数据归一化
对标签进行one-hot编码
构造训练集,验证集和测试集
对输入数据归一化
在这里我们使用sklearn中的minmax归一化。
首先将训练数据集重塑为[50000, 3072]的形状,利用minmax来进行归一化。最后再将图像重塑回原来的形状。
对标签进行one-hot编码
同样我们在这里使用sklearn中的LabelBinarizer来进行one-hot编码。
构造train和val
目前我们已经有了train和test数据集,接下来我们要将加载进来的train分成训练集和验证集。从而在训练过程中观察验证集的结果。
我们将训练数据集按照8:2分为train和validation。
卷积网络
完成了数据的预处理,我们接下来就要开始进行建模。
首先我们把一些重要的参数设置好,并且将输入和标签tensor构造好。
img_shape是整个训练集的形状,为[40000, 32, 32, 3],同时我们的输入形状是[batch_size, 32, 32, 3],由于前面我们已经对标签进行了one-hot编码,因此标签是一个[batch_size, 10]的tensor。
接下来我们先来看一下整个卷积网络的结构:
在这里我设置了两层卷积+两层全连接层的结构,大家也可以尝试其他不同的结构和参数。
conv2d中我自己定义了初始化权重为truncated_normal,事实证明权重初始化对于卷积结果有一定的影响。
在这里,我们来说一下conv2d的参数:
输入tensor:inputs_
滤波器的数量:64
滤波器的size:height=2, width=2, depth默认与inputs_的depth相同
strides:strides默认为1x1,因此在这里我没有重新设置strides
padding:padding我选了same,在strides是1的情况下,经过卷积以后height和width与原图保持一致
kernel_initializer:滤波器的初始化权重
其余参数类似,这里不再赘述,如果还不是很清楚的小伙伴可以去查看官方文档。
在第一个全连接层中我加入了dropout正则化防止过拟合,同时加快训练速度。
训练模型
完成了模型的构建,下面我们就来开始训练整个模型。
在训练过程中,每100轮打印一次日志,显示出当前train loss和validation上的准确率。
我们来看一下最终的训练结果:
上图是我之前跑的一次结果,这次跑出来可能有所出入,但准确率大概会在65%-70%之间。
最后在validation上的准确率大约稳定在了70%左右,我们接下来看一下在test数据上的准确率。下面的代码是在test测试准确率的代码。
我们把训练结果加载进来,设置test的batchs_size为100,来测试我们的训练结果。最终我们的测试准确率也基本在70%左右。