当我第一次在研究生院学习神经网络的时候,我问我的教授是否有选择架构和超参数的经验法则。我期望他的回答是“嗯,有点,但不是真的”……毕竟,神经网络比其他机器学习算法有更多的选择!当我阅读 Ian Goodfellow, Yoshua Bengio, 和 Aaaron Courville的深度学习书时,我一直在思考这个问题,并决定在这本书中列出一份规则清单。事实证明,它们有很多……主要是因为它们可以完成很多类型的神经网络和任务。

有趣的是,许多这些经验法则并没有得到很好的确立-深度学习仍然是一个相对较新的活跃研究领域,所以下面列出的很多规则只是研究人员最近发现的。除此之外,这本书中还有很多领域,作者要么说(用更多的学术术语)“我们不知道这是为什么,但我们可以看到这是真的”或者“我们知道这不是最好的方法,但这是一个活跃的研究领域,我们目前还不知道更好的方法“。

  • 如果可能的话,使用迁移学习。如果没有,并且要处理一个已经被广泛研究过的问题,那么从复制架构开始。

    • 网络体系结构最终应该通过实验来决定,并由验证误差来决定。更深(更多层more layers)、更薄(smaller layers)的网络更难优化,但往往会产生更好的泛化误差。
  • 总是要early stopping

    • 两种早期停止方法

      • 在整个数据集上使用新的参数重新训练模型,在早期停止点达到与前一个模型相同的训练步骤时停止。

      • 保持在早期停止时获得的参数,继续使用所有数据进行训练,当平均训练误差降到前一个早期停止点的训练误差以下时停止训练。

  • 使用Dropout可能是个好主意

    • 输入层用0.8的概率,隐藏层用0.5。

    • Dropout可能需要更大的网络,需要与更多的迭代训练。

  • ReLUs是理想的激活函数。当然它们还是存在缺陷,因此使用leaky或noisy ReLUs 可以获得性能增益,而代价是需要调整更多的参数。

  • 要获得可接受的性能,每个类别至少需要5,000次观察。

    • 如果你的观察量少于10万,使用k折交叉验证代替训练/验证/测试分割。
  • 使用GPU内存所能处理的批处理大小

    • 尝试不同的批次大小,每次增加2倍,从32开始(或者在大网络里先用16开始),增加到256。
  • 具有动量和衰减学习率的随机梯度下降是一种较好的优化算法。

成为VIP会员查看完整内容
61

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【2020新书】监督机器学习,156页pdf,剑桥大学出版社
专知会员服务
150+阅读 · 2020年6月27日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
139+阅读 · 2020年5月19日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
192+阅读 · 2020年5月2日
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
126+阅读 · 2020年3月15日
《深度学习》圣经花书的数学推导、原理与Python代码实现
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
161+阅读 · 2020年2月27日
【新书】傻瓜式入门深度学习,371页pdf
专知会员服务
183+阅读 · 2019年12月28日
深度学习界圣经“花书”《Deep Learning》中文版来了
专知会员服务
229+阅读 · 2019年10月26日
7个实用的深度学习技巧
机器学习算法与Python学习
16+阅读 · 2019年3月6日
深度学习面试100题(第41-45题)
七月在线实验室
15+阅读 · 2018年7月18日
深度学习面试100题(第31-35题)
七月在线实验室
8+阅读 · 2018年7月16日
入门 | 深度学习模型的简单优化技巧
机器之心
9+阅读 · 2018年6月10日
深度学习入门笔记
论智
7+阅读 · 2018年3月31日
RNN | RNN实践指南(3)
KingsGarden
7+阅读 · 2017年6月5日
One-Shot Federated Learning
Arxiv
9+阅读 · 2019年3月5日
Single-frame Regularization for Temporally Stable CNNs
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Neural Approaches to Conversational AI
Arxiv
8+阅读 · 2018年12月13日
Arxiv
9+阅读 · 2018年10月24日
Arxiv
21+阅读 · 2018年8月30日
VIP会员
相关VIP内容
【2020新书】监督机器学习,156页pdf,剑桥大学出版社
专知会员服务
150+阅读 · 2020年6月27日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
139+阅读 · 2020年5月19日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
192+阅读 · 2020年5月2日
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
126+阅读 · 2020年3月15日
《深度学习》圣经花书的数学推导、原理与Python代码实现
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
161+阅读 · 2020年2月27日
【新书】傻瓜式入门深度学习,371页pdf
专知会员服务
183+阅读 · 2019年12月28日
深度学习界圣经“花书”《Deep Learning》中文版来了
专知会员服务
229+阅读 · 2019年10月26日
相关资讯
7个实用的深度学习技巧
机器学习算法与Python学习
16+阅读 · 2019年3月6日
深度学习面试100题(第41-45题)
七月在线实验室
15+阅读 · 2018年7月18日
深度学习面试100题(第31-35题)
七月在线实验室
8+阅读 · 2018年7月16日
入门 | 深度学习模型的简单优化技巧
机器之心
9+阅读 · 2018年6月10日
深度学习入门笔记
论智
7+阅读 · 2018年3月31日
RNN | RNN实践指南(3)
KingsGarden
7+阅读 · 2017年6月5日
相关论文
One-Shot Federated Learning
Arxiv
9+阅读 · 2019年3月5日
Single-frame Regularization for Temporally Stable CNNs
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Neural Approaches to Conversational AI
Arxiv
8+阅读 · 2018年12月13日
Arxiv
9+阅读 · 2018年10月24日
Arxiv
21+阅读 · 2018年8月30日
微信扫码咨询专知VIP会员