-欢迎加入AI技术专家社群>>
在深度神经网络(DNN)模型与前向传播算法中,我们对DNN的模型和前向传播算法做了总结,这里我们更进一步,对DNN的反向传播算法(Back Propagation,BP)做一个总结。
在了解DNN的反向传播算法前,我们先要知道DNN反向传播算法要解决的问题,也就是说,什么时候我们需要这个反向传播算法?
回到我们监督学习的一般问题,假设我们有m个训练样本: {(x1,y1),(x2,y2),...,(xm,ym)},其中 x为输入向量,特征维度为 n_in,而 y为输出向量,特征维度为 n_out。我们需要利用这m个样本训练出一个模型,当有一个新的测试样本 (xtest,?)来到时, 我们可以预测 ytest向量的输出。
如果我们采用DNN的模型,即我们使输入层有 n_in个神经元,而输出层有 n_out个神经元。再加上一些含有若干神经元的隐藏层。此时我们需要找到合适的所有隐藏层和输出层对应的线性系数矩阵 W,偏倚向量 b,让所有的训练样本输入计算出的输出尽可能的等于或很接近样本输出。怎么找到合适的参数呢?
如果大家对传统的机器学习的算法优化过程熟悉的话,这里就很容易联想到我们可以用一个合适的损失函数来度量训练样本的输出损失,接着对这个损失函数进行优化求最小化的极值,对应的一系列线性系数矩阵 W,偏倚向量 b即为我们的最终结果。在DNN中,损失函数优化极值求解的过程最常见的一般是通过梯度下降法来一步步迭代完成的,当然也可以是其他的迭代方法比如牛顿法与拟牛顿法。如果大家对梯度下降法不熟悉,建议先阅读我之前写的梯度下降(Gradient Descent)小结。
对DNN的损失函数用梯度下降法进行迭代优化求极小值的过程即为我们的反向传播算法。
现在我们总结下DNN反向传播算法的过程。由于梯度下降法有批量(Batch),小批量(mini-Batch),随机三个变种,为了简化描述,这里我们以最基本的批量梯度下降法为例来描述反向传播算法。实际上在业界使用最多的是mini-Batch的梯度下降法。不过区别仅仅在于迭代时训练样本的选择而已。
输入: 总层数L,以及各隐藏层与输出层的神经元个数,激活函数,损失函数,迭代步长,最大迭代次数MAX与停止迭代阈值,输入的m个训练样本 {(x1,y1),(x2,y2),...,(xm,ym)}
输出:各隐藏层与输出层的线性关系系数矩阵和偏倚向量
1) 初始化各隐藏层与输出层的线性关系系数矩阵和偏倚向量的值为一个随机值。
2)for iter to 1 to MAX:
2-1) for i =1 to m:
有了DNN反向传播算法,我们就可以很方便的用DNN的模型去解决第一节里面提到了各种监督学习的分类回归问题。当然DNN的参数众多,矩阵运算量也很大,直接使用会有各种各样的问题。有哪些问题以及如何尝试解决这些问题并优化DNN模型与算法,我们在下一篇讲。
来源:http://www.cnblogs.com/pinard/p/6422831.html
↓ 点击阅读原文,进入学院