本文主要聚焦于小模型(即轻量型模型)的自监督学习问题,作者通过实证发现:对比自监督学习方法在大模型训练方面表现出了很大进展,然这些方法在小模型上的表现并不好。

为解决上述问题,本文提出了一种新的学习框架:自监督蒸馏(SElf-SupErvised Distillation, SEED),它通过自监督方式(SSL)将老师模型的知识表达能力迁移给学生模型。不同于直接在无监督数据上的直接学习,我们训练学生模型去模拟老师模型在一组示例上的相似度得分分布。

所提SEED的简洁性与灵活性不言而喻,包含这样三点:(1) 无需任何聚类/元计算步骤生成伪标签/隐类;(2) 老师模型可以通过优秀的自监督学习(比如MoCo-V2、SimCLR、SWAV等)方法进行预训练;(3)老师模型的知识表达能力可以蒸馏到任意小模型中(比如更浅、更细,甚至可以是完全不同的架构)。

实验表明:SEED可以提升小模型在下游任务上的性能表现。相比自监督基准MoCo-V2方案,在ImageNet数据集上,SEED可以将EfficientNet-B0的精度从42.2%提升到67.6%,将MobileNetV3-Large的精度从36.3%提升到68.2%,见下图对比。

https://arxiv.org/pdf/2101.04731.pdf

成为VIP会员查看完整内容
34

相关内容

自监督学习(self-supervised learning)可以被看作是机器学习的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。
专知会员服务
28+阅读 · 2021年5月2日
专知会员服务
65+阅读 · 2021年4月11日
专知会员服务
19+阅读 · 2021年2月8日
几种句子表示方法的比较
AINLP
15+阅读 · 2019年9月21日
解耦强化学习的值函数学习
CreateAMind
6+阅读 · 2019年9月5日
CMU最新视觉特征自监督学习模型——TextTopicNet
人工智能头条
9+阅读 · 2018年7月29日
Arxiv
5+阅读 · 2020年3月26日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
4+阅读 · 2018年4月10日
Arxiv
7+阅读 · 2018年1月21日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
微信扫码咨询专知VIP会员