机器都会学习了，你的神经网络还跑不动？来看看这些建议

2018 年 7 月 30 日 数盟

大数据文摘出品

编译：什锦甜、倪倪、胡笳、云舟

在很多机器学习的实验室中，机器已经进行了上万小时的训练。在这个过程中，研究者们往往会走很多弯路，也会修复很多bug，但可以肯定的是，在机器学习的研究过程中，学到经验和知识的并不仅仅是机器，我们人类也积累的丰富的经验，本文就将给你几条最实用的研究建议。

接下来本文将介绍一些训练深度神经网络时的经验(主要基于TensorFlow平台)。有些建议可能对你来说很显而易见，但对其他人来说可能很重要。有些建议可能对某些特定任务并不适用，请谨慎使用!

一般性建议

使用 ADAM优化器。和批量梯度下降等传统优化器相比，Adam优化器效果更好。

TensorFlow使用建议：保存和恢复权重时，记得在创建Adam优化器后创建Saver，因为Adam也有state(也叫学习速率的单位权重)需要恢复。

Relu是最好的非线性映射(激活函数)。就像 Sublime是最好的文本编辑器， ReLU快速、简单，神奇的地方在于它在训练过程中不会逐渐减少梯度。虽然教科书中常用sigmoid作为激活函数，但是它在DNN中不能很好地传递梯度。

不要在输出层用激活函数。这一点应该很明显，但是如果你在构建网络的每一层都使用了一个共享的函数，那这个错误就很常见了。请确保你在输出层没有使用激活函数。

在每一层中增加一个偏差值。这是机器学习入门知识：偏差本质上的作用是把一个平面转化到最佳拟合位置。在y=mx+b函数中， b就是一个偏差值，可以把直线移动到最佳拟合的位置。

使用方差缩放初始化(variance-scaled initialization)。在Tensorflow中，使用类似于tf.contrib.layers.variance_scaling_initializer()这样的方法初始化。

根据我们的经验，这个方法比常规的高斯分布初始化，截断正态分布初始化和Xavier初始化方法效果更好。

总体上讲，方差缩放初始化可以根据每一层输入和输出的数量(TensorFlow中默认使用输入的数量)，来调整初始随机权重的方差，从而帮助信号在不需要通过截断或者批量规范化等额外的方法来在网络中传递得更深。

Xavier初始化方法和它类似，只是Xavier初始化在所有层中基本一样，如果网络的层与层之间的取值范围差异很大(常见于卷积网络)，每一层使用同一个方差可能就不适用了。

输入数据归一化。在训练时，减去数据集的均值，然后除以标准差。这样可以减少权重在每个方向上的拉伸，帮助神经网络更快更好地学习。保持输入的数据以方差为均值中心可以很好的实现这点。你也要保证每次测试输入采取一致的归一化方法，从而保证你的训练集能够模拟真实数据环境。

合理地缩放数据。这与归一化处理相关，但应该在归一化之前进行。比如，数据x在现实生活中的范围是[0, 140000000]，可能服从tanh(x)或者 tanh(x/C)分布，其中 C为常量，用于调整曲线帮助输入数据更好的符合tanh函数的坡度部分。尤其当你输入数据地在一端或者两端无界的情况下，神经网络在 (0,1)范围里可以学习的更好。

通常情况下，不要费力去降低学习速率。SGD中学习速率衰减更常见，但是 ADAM可以更自然地处理它。如果你一定要计较细微的性能差别：在训练结束时短暂地降低学习速率，你可能会看到一个误差突然降低一点，然后再次趋于平稳。

如果你的卷积层有64或128个滤波器，这可能就有些多余了，尤其对于深度网络来说，128个滤波器真的有些多了。如果你已经有了大量的滤波器，再添加可能毫无意义。

池化(pooling)是为了最大程度保持变换的不变性。pooling本质上是使神经网络学习图像中一部分的整体特征。比如，max pooling可以使图像在卷积网络中经过位移、旋转和缩放等变换之后，仍然保持特征的不变性。

调试神经网络

如果你的神经网络不能够学习，也就是说训练时损失或者精确度不收敛，或者不能得到预期的结果。尝试以下的建议：

过拟合!如果你的网络不收敛，第一件要做的事是去过拟合一个训练点，精度应该达到 100%或99.99%，或者误差接近0。如果你的神经网络不能过拟合单个数据点，那么你的架构存在严重但可能很细微的问题。如果你可以过拟合一个数据点但训练更大的数据集时不能收敛，那么可以尝试如下建议。

降低学习速率。你的网络会学习的慢一些，但是它可以下降到最小值，之前无法达到是因为步长设置的太大。(想象一下寻找最小值就相当于你想抵达沟渠最低点，而步长太大导致你直接跨过了沟渠。)

提高学习率。较大的学习率有助于缩短训练时间，减少反馈环路，这就意味着可以较快地预判网络模型是不是可行。不过虽然网络模型能够更快的收敛，但是结果可能不会特别理想，甚至会有较大的振荡。(我们发现对于ADAM优化器，0.001的学习率在许多实验中收效不错。)

减小批处理的样本数。使用样本数为1的批处理能够获取更细粒度的权重以更新反馈，你可以使用TensorBoard查看(或者其他调试/可视化的工具。)

去掉批处理规范化。在批处理样本数减少到1的同时，去掉批处理规范化，可以暴露梯度消失或者梯度爆炸的问题。我们曾有一个神经网络模型在几个星期后仍旧不能收敛。直到去掉了批处理规范化，我们才意识到在第二轮迭代后所有的输出都是NaN。批处理规范化的作用如同止血时的创口贴，但是只有在你的网络模型没有错误的情况下才管用。

增加批处理的样本数。较大样本的批处理，比如使用整个数据集，减少了梯度更新的方差，可以使得每轮迭代的结果更精确。换句话说，权重迭代将朝着正确的方向进行。但是，这个方法受到物理内存大小限制。通常，前面两个使用样本数为1 的批处理和除去批处理规范化的技巧比这个技巧要更有用。

检查矩阵变形。较大的矩阵变形(例如改变图像的横纵轴)会破坏空间的局部性特征，给模型的学习增添了难度，因为矩阵变形也是需要学习的一部分。(自然的特征变得四分五裂。事实上自然特征的空间局部特征也是卷积神经网络之所以有效的原因。)要特别注意多图形/通道的矩阵变形;用numpy.stack()进行适当的调整。

检查损失函数。如果使用的是复杂的损失函数，就先试一下简单的例如L1或者L2损失函数。我们发现L1对于异常值没那么敏感，因此受噪音数据影响较小。

检查可视化。检查你的可视化工具包(matplotlib，OpenCV，等)是否调整了数值的数量级，或者有值域限制?

识别下图二维码，加“数盟社区”为好友，回复暗号“入群”，加入数盟社区交流群，群内持续有干货分享~~