【从0开始机器学习】神经网络识别手写字符！

会员服务 ·

【从0开始机器学习】神经网络识别手写字符！

2020 年 5 月 20 日 深度学习自然语言处理

一、问题描述

今天登龙跟大家分享下使用前馈神经网络识别 10 种类型手写字符的方法。

不太了解神经网络基础的同学，可以查看我上一篇文章：从 0 开始机器学习 - 深入浅出神经网络基础

我们的目标就是用一个已经训练好的神经网络来预测下面这 10 类手写字符 [0 - 9]：

每个字符是一个 20 X 20 = 400 像素的图片：

OK！我们直接开始，先来看看我们用的神经网络的架构。

二、神经网络架构

我们在使用神经网络之前需要进行参数的训练，也就是训练权重矩阵，这篇博客就不详细展开如何训练了，后面单独写一篇反向 BP 算法的文章介绍。

不管是训练还是预测，我们都要首先搞清楚使用的神经网络架构是怎样的，也就是输入输出层有多少节点，有多少个隐藏层，每个隐藏层有多少节点。

这些很重要，因为每层的节点数都作为权重矩阵的行和列，在预测的时候要使用这些权重矩阵。

我们这个例子使用的的 3 层神经网络，我来给你详细分析下这个架构：

输入层（400）：输入特征为一个 20 x 20 = 400 像素的字符图像，所以有 400 个输入单元，还有一个偏置单元没算在内
隐藏层（25）：隐藏层 25 个节点，同样还有一个偏置单元没算在内
输出层（10）：因为要分类 10 个数字，所以用 10 个输出表示类别，哪个输出 1 表示识别为哪个数字

结构搞清楚后，我们直接开始预测，下面我带你解析关键的 Python 代码，完整代码见文末 Github 仓库链接。

三、Python 识别手写字符

3.1 加载权重矩阵

我们使用提前训练好的神经网络参数，再提醒一下训练神经网络就是训练每层之间的连接权重，这些连接权重组和起来就是权重矩阵，相邻的 2 层之间有一个权重矩阵。

我们就是加载这些矩阵，然后用这些矩阵与输入图像的 400 个像素组成的向量一步步相乘，最终得出一个 1 X 10 的向量表示预测的数字是哪个。

加载权重的代码如下：

# 加载已经训练好的 3 层神经网络参数
def load_weight(path):
    data = sio.loadmat(path)
    return data['Theta1'], data['Theta2']

我们来加载 2 个权重矩阵（因为我们是 3 层神经网络，所以只有 2 个权重矩阵哦）：

# 使用已经训练好的神经网络参数
# 输入层：400，隐藏层：25，输出层：10
theta1, theta2 = load_weight('ex3weights.mat')

theta1.shape, theta2.shape

输入的 2 个权重矩阵的维度分别是：

(25, 401), (10, 26)

这符合我们的网络架构：

theta1 是 25 行 401 列，行数为隐藏层单元数，列数为输入层单元数 + 一个偏置单元
theta2 是 10 行 26 列，行数为输出层单元数，列数为隐藏层单元数 + 一个偏置单元

如下图：

3.2 开始前馈预测

先加载要识别的手写字符数据：

X, y = load_data('ex3data1.mat', transpose = False)

X.shape, y.shape

输入的 X 是 5000 行 401 列，y 是 5000 行一列，这个数据集我上篇文章有详细介绍过：从 0 开始机器学习 - 逻辑回归识别手写字符！

先定义下每层的输入输出：

：表示每层神经元的输出，注意是经过 sigmoid 等激活函数运算后的输出
：表示每层神经元的输入，

首先把输入的特征矩阵直接作为第一层神经元的输出。

注意虽然这里是把所有的样本一次性输入给神经网络，但是因为是矩阵运算，所以可以理解为每次处理一个样本，也就是特征矩阵的一行：

a1 = X

计算第二层隐藏层的输入，注意这里对 theta1 取了转置，是因为矩阵要能够相乘，必须第一个矩阵的列数等于第二个矩阵的行数：

z2 = a1 @ theta1.T

给第二层隐藏层加上偏置单元，也就是增加第一列全 1 向量：

z2 = np.insert(z2, 0, values = np.ones(z2.shape[0]), axis = 1)

计算第二层隐藏层神经元的输出 $，使用 sigmoid 激活函数：

a2 = sigmoid(z2)

再继续利用隐藏层的输出作为最后输出层的输入，这里的转置也是为了做矩阵乘法：

z3 = a2 @ theta2.T

计算输出层的输出：

a3 = sigmoid(z3)

这个就是我们最后对原始手写字符的识别结果，如下：

不过这样不太直观，我们再来取出每行最大值的索引，就是识别的数字：

y_pred = np.argmax(a3, axis = 1) + 1

y_pred

结果如下：

array([10, 10, 10, ...,  9,  9,  9])

第一个 10 表示原数据集第一个书写字符识别为 10，最后一个 9 表示原数据集最后一个手写字符的识别结果，有了识别的结果，我们再来看看总体识别的准确度如何？

来打印下分类报告：

print(classification_report(y, y_pred))

可以看到识别的准确度还是挺高的，能达到 97% 以上！OK！今天登龙就跟大家分享这些，下期再见！

文中的完整可运行代码链接：

https://github.com/DLonng/AI-Notes/blob/master/MachineLearning/ex3-neural-network/my_neural_network_pred.ipynb

投稿或交流学习，备注： 昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

登录查看更多

相关内容

隐藏层

关注 0

【实用书】Python机器学习Scikit-Learn应用指南，247页pdf

专知会员服务

269+阅读 · 2020年6月10日

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

专知会员服务

174+阅读 · 2020年6月6日

【实用书】Python数据科学从零开始，330页pdf

专知会员服务

145+阅读 · 2020年5月19日

【干货书】机器学习Python实战教程，366页pdf

专知会员服务

344+阅读 · 2020年3月17日

Sklearn 与 TensorFlow 机器学习实用指南,385页pdf

专知会员服务

130+阅读 · 2020年3月15日

机器学习速查手册，135页pdf

专知会员服务

343+阅读 · 2020年3月15日

【新书】Pro 机器学习算法Python实现，379页pdf

专知会员服务

204+阅读 · 2020年2月11日

【新书】实用的机器学习和图像处理，177页pdf，用于面部识别、目标检测和使用Python的模式识别

专知会员服务

104+阅读 · 2020年1月18日

花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知会员服务

62+阅读 · 2019年12月25日

100行Python代码，轻松搞定神经网络

大数据文摘

4+阅读 · 2019年5月2日

无需深度学习框架，如何从零开始用Python构建神经网络

机器之心

4+阅读 · 2018年5月26日

[机器学习] 用KNN识别MNIST手写字符实战

机器学习和数学

4+阅读 · 2018年5月13日

机器学习必知的8大神经网络架构

七月在线实验室

7+阅读 · 2018年4月26日

干货 | 受限玻尔兹曼机基础教程

机器学习算法与Python学习

7+阅读 · 2018年3月27日

干货｜深度神经网络（DNN）反向传播算法(BP)

全球人工智能

7+阅读 · 2018年1月12日

免费｜机器学习算法Python实现

全球人工智能

6+阅读 · 2018年1月2日

从零开始：教你如何训练神经网络

机器之心

5+阅读 · 2017年12月11日

10分钟搞懂Tensorflow 逻辑回归实现手写识别

全球人工智能

5+阅读 · 2017年10月19日

30行代码，带你分分钟创建神经网络！(附工具&教程)

数据派THU

9+阅读 · 2017年9月21日

A Survey of Deep Learning for Scientific Discovery

Arxiv

29+阅读 · 2020年3月26日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

Learning to Generate and Reconstruct 3D Meshes with only 2D Supervision

Arxiv

3+阅读 · 2018年11月15日

Reversible Recurrent Neural Networks

Arxiv

3+阅读 · 2018年10月25日

Stock Chart Pattern recognition with Deep Learning

Arxiv

6+阅读 · 2018年8月1日

Large-Scale Stochastic Sampling from the Probability Simplex

Arxiv

3+阅读 · 2018年6月19日

Object Tracking in Satellite Videos Based on a Multi-Frame Optical Flow Tracker

Arxiv

5+阅读 · 2018年4月25日

Joint Recognition of Handwritten Text and Named Entities with a Neural End-to-end Model

Arxiv

6+阅读 · 2018年3月22日

Interpretable Convolutional Neural Networks

Arxiv

22+阅读 · 2018年2月14日

Big Data: Understanding Big Data

Arxiv

6+阅读 · 2016年1月15日

VIP会员