Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability
大规模的预训练已被证明对广泛的计算机视觉任务都十分关键,能够带来显著的涨点;然而,随着预训练数据量的增大,私有数据的出现,模型结构的多样化,将所有的模型结构都在大规模预训练数据集上进行预训练,变得昂贵、低效、不实际。
研究者们思考:是否一个已经在大量数据上预训练好的模型已经提取了大量数据的知识,并且可以仅通过少部分预训练数据,将其高效快速的传递给一个新的模型? 进而,研究者们提出通过知识蒸馏来实现高效模型预训练。他们发现,传统的知识蒸馏由于在分类的 logits 上进行蒸馏,而这些分类的 logits 并不会被利用到下游迁移任务中,因此并不适合于预训练需要的特征学习。对此,研究者们提出一种基于无额外参数特征维度对齐的纯特征蒸馏方法。
采用所提出的方法,仅使用 1/10 的预训练数据和 1/5 的预训练时间,就可以达到有监督预训练的迁移效果(在图像分类、语义分割、目标检测任务上评估迁移效果)。
arXiv: https://www.zhuanzhi.ai/paper/ff8fc62c3b2064a52d048d5d4b25fe54 Github: https://github.com/CVMI-Lab/KDEP