学界 | 引用次数最多的深度学习论文出自谁手？（最优化/训练技巧篇）

2017 年 4 月 29 日 AI科技评论

AI科技评论按：还记得前段时间AI科技评论编译的深度学习论文推荐列表吗？编译了@Terryum在GitHub上整理的论文推荐列表，介绍了关于理解/泛化/迁移的七篇论文。在今天这一部分，将编译推荐列表中关于最优化/训练技巧的六篇论文，并增加了每篇论文的概要。

2015年3月，来自Google的Sergey Ioffe 和Christian Szegedy两位技术专家合著了《Batch normalization: Accelerating deep network training by reducing internal covariate shift》, 这篇论文提出了深度神经网络训练过程的一种重要思想 — 批标准化（Batch Normalization）。在深度神经网络的训练过程中，每一层的输入分布会随前一层的参数变化而变化，这要求我们必须降低学习率并对参数很好地初始化，使得训练过程变慢，论文中称之为internal covariate shift，而批标准化可以很好地解决这个问题。通过mini batch对相应的激励项（activation）做标准化操作，把标准化当做模型结构的一部分。批标准化的方法使得我们在训练过程可以使用更高的学习率，也不必过分在意参数初始化。另外，它还可以消除或者减少DropOut的使用。论文作者在表现优异的图像分类模型上使用了批标准化，结果表明，在取得同样准确率的情况下，使用了批标准化的模型使用的训练步骤相对原模型减少了14倍。另外，作者使用批标准化过的网络模型集合，改进了ImageNet分类问题中公开发表的最好成绩的模型，top-5的validation error低达4.9%，test error 低达4.8%。

[1]Batch normalization: Accelerating deep network training by reducing internal covariate shift (2015), S. Loffe and C. Szegedy [pdf]

来自微软研究院的孙剑，何恺明、张祥雨、任少卿在2015年2月发表了《Delving deep into rectifiers: Surpassing human-level performance on imagenet classification 》，首次宣布其开发的计算机视觉系统已经超越了人类视觉的识别能力。这篇论文从两个方面解释了用于图像分类的修正神经网络（rectifier neural networks）。

第一，文中提出了一种新的ReLU函数，称为参数化修正线性单元（Parametric Rectified Linear Unit） (PReLU) ，用于泛化传统的修正单元。这种激励函数自适应学习修正的参数，提高了模型的拟合程度，而增加的计算量和过拟合风险几乎可以忽略不计。

第二，文章提出了一种强大的初始化方法，使训练模型可以适用于非线性系统，解决了训练深度修正网络遇到的收敛问题。

依托于这两点，这篇论文的团队在ImageNet 2012分类数据集中错误率低达4.94%，相对于ILSVRC2014的冠军水平提升了26%的准确度。

[2]Delving deep into rectifiers: Surpassing human-level performance on imagenet classification (2015), K. He et al.

对于参数特别多的深度神经网络来说，过拟合是影响模型性能的主要问题。为了防止过拟合，我们通常会使用多个模型组合成的集合模型进行训练和测试，这使得模型在测试时使用起来极慢。来自多伦多大学计算机学院的Nitish Srivastava，Geoffrey Hinton，Alex Krizhevsky，Ilya Sutskever和Ruslan Salakhutdinov在论文《Dropout: A simple way to prevent neural networks from overfitting 》中提出了Dropout的方法来解决过拟合问题，Dropout的核心概念就是在训练过程中随机“丢弃”神经网络单元，在神经网络中使用dropout相当于从原有的神经网络中取样一个“瘦”一点的网络，这个网络由在“丢弃”过程中存活下来的单元组成。Dropout方法显著地降低了过拟合的风险，提高了如视觉，语音识别，文本分类和生物学计算等有监督学习任务的模型性能，并在很多基准数据集中取得了优异成绩。

[3]Dropout: A simple way to prevent neural networks from overfitting (2014), N. Srivastava et al. [pdf]

由Diederik P. Kingma 和Jimmy Lei Ba合著的《Adam: A method for stochastic optimization 》介绍了一种有效的随机优化方法 —— ADAM算法，这种算法通过对低阶的自适应矩估计，来优化基于一阶梯度的随机目标函数。这种方法实现起来简单明了，计算高效，对内存需求小，适用于数据或者参数很多的任务。ADAM算法结合了AdaGrad和RMSProp算法的优点，既有AdaGrad处理稀疏梯度的能力，又有RMSProp处理不稳定目标的能力。作者还讨论了此算法在凸优化问题中的收敛情况，在非凸优化问题上也表现良好。经验结果表明，ADAM算法在实际运用中表现良好，在一众随机优化算法中较为出色。

[4]Adam: A method for stochastic optimization (2014), D. Kingma and J. Ba [pdf]

来自多伦多大学的G. E. Hinton等合著了《Improving neural networks by preventing co-adaptation of feature detectors 》，提出了通过阻止训练数据中的共适应现象来解决过拟合问题。当训练使用的数据集很小时，神经网络模型在测试数据集上的表现就会很糟糕，这是因为过度训练导致的过拟合的现象。这种现象可以通过随机“丢弃”（Dropout）特征探测器来改善，阻止特征探测器的共适应（co-adaptations）现象发生。共适应是指一个特征探测器的正常工作，依赖于另外几个特征探测器的正常工作。Dropout在训练过程中，对每一个训练样本，每一个隐藏层单元有50%的概率被随机“丢弃”，所以一个隐藏层单元没有办法再依赖于其他的隐藏层单元工作，这种随机的Dropout提升了神经网络模型在很多语音和物体识别基准任务的性能。

[5]Improving neural networks by preventing co-adaptation of feature detectors (2012), G. Hinton et al. [pdf]

在进行神经网络超参数优化时，网格搜索和人工调参是常见的两种策略。James Bergstra和Yoshua Bengio在合著的论文《Random Search for Hyper-Parameter Optimization》中提出了另一种超参数优化方法——随机搜索，并从理论上和经验上证明了，在超参数优化过程中，随机试验比网格搜索更高效。作者对比了很多使用网格搜索和人工调参配置神经网络和深度信念网络的例子。结果表明，在相同领域，相比网格搜索，使用随机搜索配置超参数的网络可以找到相同或者更好的模型，只是在计算量上有小幅增加。此外，在相同的32维配置空间中，完全使用随机搜索配置的深度信念网络，与网格搜索和人工调参配置的深度信念网络相比，在1/7的数据集上表现出了更优异的性能。论文作者预测，由于外界对大型层次模型与日俱增的关注，超参数优化问题也会得到更多的关注，而随机搜索会成为在自适应超参数优化算法发展过程中的一个基准。

[6]Random search for hyper-parameter optimization (2012) J. Bergstra and Y. Bengio [pdf]

AI科技评论所编译的本文只介绍了列表中属于最优化/训练技巧领域的六篇引用次数最多的论文，对于其他类别的论文，请参考原文链接：https://github.com/terryum/awesome-deep-learning-papers#unsupervised--generative-models

报名 |【2017 AI 最佳雇主】榜单