Self-supervised learning makes great progress in large model pre-training but suffers in training small models. Previous solutions to this problem mainly rely on knowledge distillation and indeed have a two-stage learning procedure: first train a large teacher model, then distill it to improve the generalization ability of small ones. In this work, we present a new one-stage solution to obtain pre-trained small models without extra teachers: slimmable networks for contrastive self-supervised learning (\emph{SlimCLR}). A slimmable network contains a full network and several weight-sharing sub-networks. We can pre-train for only one time and obtain various networks including small ones with low computation costs. However, in self-supervised cases, the interference between weight-sharing networks leads to severe performance degradation. One evidence of the interference is \emph{gradient imbalance}: a small proportion of parameters produces dominant gradients during backpropagation, and the main parameters may not be fully optimized. The divergence in gradient directions of various networks may also cause interference between networks. To overcome these problems, we make the main parameters produce dominant gradients and provide consistent guidance for sub-networks via three techniques: slow start training of sub-networks, online distillation, and loss re-weighting according to model sizes. Besides, a switchable linear probe layer is applied during linear evaluation to avoid the interference of weight-sharing linear layers. We instantiate SlimCLR with typical contrastive learning frameworks and achieve better performance than previous arts with fewer parameters and FLOPs.
翻译:自我监督的学习在大型模型培训前取得了很大进步,但在培训小型模型方面却遭遇了困难。 这一问题以前的解决办法主要依靠知识蒸馏,实际上有两阶段学习程序:先培训一个大型教师模型,然后将它蒸馏,以提高小型教师的普及能力。 在这项工作中,我们提出了一个新的一阶段解决办法,以便在没有额外教师的情况下获得经过预先训练的小模型:较优自监督学习的网络较薄:自监督学习(emph{SlimCLR})的网络比较性能网络。一个微薄的网络包含一个完整的网络和若干权重共享子网络。我们可以只一次的预培训并获得各种网络,包括低计算成本的小型网络。然而,在自我监督的情况下,权重共享网络之间的干扰导致严重性能退化。 一种干预的证据是:在反向调整期间,一小部分参数产生支配性梯度的梯度,而主要参数可能不完全优化。 各种网络的梯度方向差异也可能导致网络之间的干扰。 为了克服这些问题,我们通过自我监督的深度评估, 我们用主要的参数来生成最稳性水平的平级的平级的升级的升级的升级的升级, 和升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的升级的