The largely successful method of training neural networks is to learn their weights using some variant of stochastic gradient descent (SGD). Here, we show that the solutions found by SGD can be further improved by ensembling a subset of the weights in late stages of learning. At the end of learning, we obtain back a single model by taking a spatial average in weight space. To avoid incurring increased computational costs, we investigate a family of low-dimensional late-phase weight models which interact multiplicatively with the remaining parameters. Our results show that augmenting standard models with late-phase weights improves generalization in established benchmarks such as CIFAR-10/100, ImageNet and enwik8. These findings are complemented with a theoretical analysis of a noisy quadratic problem which provides a simplified picture of the late phases of neural network learning.


翻译:培训神经网络的大致成功方法是使用某些随机梯度梯度下降变量(SGD)来学习它们的重量。 在这里,我们表明,SGD发现的解决办法可以通过在学习后期将一组重量组合起来来进一步改进。在学习结束时,我们通过在重量空间中采用空间平均数获得一个单一模型。为了避免计算成本增加,我们调查了一组低维的晚阶段重量模型,这些模型与其余参数发生倍增效应。我们的结果显示,用晚阶段重量增强标准模型可以改进既定基准(如CIFAR-10/100、图像网和enwik8)的概括性。这些结果得到了对一个吵闹的二次曲线问题的理论分析的补充,它提供了神经网络学习后期阶段的简化图象。

0
下载
关闭预览

相关内容

【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
154+阅读 · 2020年5月26日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
Arxiv
0+阅读 · 2021年1月15日
Arxiv
38+阅读 · 2020年12月2日
Phase-aware Speech Enhancement with Deep Complex U-Net
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
10+阅读 · 2018年3月23日
Arxiv
10+阅读 · 2018年2月4日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
相关论文
Arxiv
0+阅读 · 2021年1月15日
Arxiv
38+阅读 · 2020年12月2日
Phase-aware Speech Enhancement with Deep Complex U-Net
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
10+阅读 · 2018年3月23日
Arxiv
10+阅读 · 2018年2月4日
Top
微信扫码咨询专知VIP会员