Training multiple deep neural networks (DNNs) and averaging their outputs is a simple way to improve the predictive performance. Nevertheless, the multiplied training cost prevents this ensemble method to be practical and efficient. Several recent works attempt to save and ensemble the checkpoints of DNNs, which only requires the same computational cost as training a single network. However, these methods suffer from either marginal accuracy improvements due to the low diversity of checkpoints or high risk of divergence due to the cyclical learning rates they adopted. In this paper, we propose a novel method to ensemble the checkpoints, where a boosting scheme is utilized to accelerate model convergence and maximize the checkpoint diversity. We theoretically prove that it converges by reducing exponential loss. The empirical evaluation also indicates our proposed ensemble outperforms single model and existing ensembles in terms of accuracy and efficiency. With the same training budget, our method achieves 4.16% lower error on Cifar-100 and 6.96% on Tiny-ImageNet with ResNet-110 architecture. Moreover, the adaptive sample weights in our method make it an effective solution to address the imbalanced class distribution. In the experiments, it yields up to 5.02% higher accuracy over single EfficientNet-B0 on the imbalanced datasets.


翻译:培训多种深度神经网络(DNNs)和平均其产出是提高预测性绩效的一个简单方法。然而,乘以培训成本使这一混合方法无法做到实用高效。最近的一些工作试图拯救和合并DNNs检查站,而后者只需要与培训单一网络同样的计算成本。然而,由于检查站的多样化程度较低,或者由于它们采用的周期学习率导致差异很大,这些方法的准确性提高幅度不大。我们在本文件中提出了合并检查站的新方法,利用强化计划加速模式的趋同和最大限度地扩大检查站的多样性。我们理论上证明,它通过减少指数损失而趋同。经验性评估还表明,我们提议的共性超越单一模型,在准确性和效率方面已有的集合。根据同样的培训预算,我们的方法在Cifar-100和与ResNet-110结构的Tiny-ImageNet上出4.96%的差错率较低。此外,我们方法中的适应性抽样权重使得它能够通过减少指数性损失而形成一个有效的解决方案。在5.02级网络上测测测测出单一数据是否准确性。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
【硬核书】树与网络上的概率,716页pdf
专知会员服务
70+阅读 · 2021年12月8日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
8+阅读 · 2020年6月15日
Arxiv
3+阅读 · 2019年3月15日
Arxiv
3+阅读 · 2018年10月25日
VIP会员
相关资讯
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员