Machine learning models based on the aggregated outputs of submodels, either at the activation or prediction levels, lead to strong performance. We study the interplay of two popular classes of such models: ensembles of neural networks and sparse mixture of experts (sparse MoEs). First, we show that these two approaches have complementary features whose combination is beneficial. Then, we present partitioned batch ensembles, an efficient ensemble of sparse MoEs that takes the best of both classes of models. Extensive experiments on fine-tuned vision transformers demonstrate the accuracy, log-likelihood, few-shot learning, robustness, and uncertainty calibration improvements of our approach over several challenging baselines. Partitioned batch ensembles not only scale to models with up to 2.7B parameters, but also provide larger performance gains for larger models.


翻译:基于次级模型总产出的机械学习模型,无论是在激活或预测水平上,都会导致强劲的绩效。我们研究了这类模型中两个受欢迎的类别之间的相互作用:神经网络的集合和专家的稀疏混合。首先,我们表明这两种方法具有互补的特征,其组合是有益的。然后,我们展示了分批组合,一个高效的分散的部系组合,它取材于两种模型的最佳类别。关于精细调准的视觉变压器的广泛实验显示了我们在几个具有挑战性的基线上的方法的准确性、日志相似性、少见的学习、稳健性和不确定性校准改进。分批组合不仅向符合2.7B参数的模型扩展,而且还为较大的模型提供了更大的性能收益。

0
下载
关闭预览

相关内容

专知会员服务
36+阅读 · 2021年5月15日
最新《深度学习理论》笔记,68页pdf
专知会员服务
49+阅读 · 2021年2月14日
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
49+阅读 · 2021年1月20日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
【基础】集成学习 (Ensemble Learning)
深度学习自然语言处理
4+阅读 · 2020年2月7日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年11月27日
Arxiv
0+阅读 · 2021年11月26日
Sparse Sequence-to-Sequence Models
Arxiv
5+阅读 · 2019年5月14日
Deep Randomized Ensembles for Metric Learning
Arxiv
5+阅读 · 2018年9月4日
VIP会员
相关资讯
【基础】集成学习 (Ensemble Learning)
深度学习自然语言处理
4+阅读 · 2020年2月7日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Top
微信扫码咨询专知VIP会员