东南大学提出条件自监督小样本学习方法，显著提升小样本分类准确率

2021 年 12 月 14 日 PaperWeekly

©作者 | 安悦瑄

单位 | 东南大学PALM实验室

研究方向 | 小样本学习、自监督学习

写在篇首

如何从有限的样本中学习可迁移的特征表示是小样本学习（Few-Shot Learning）的一个关键挑战。最近，自监督学习作为辅助任务被加入到小样本主任务的学习中，以提高小样本学习的表征能力。然而，传统的自监督学习方法往往依赖于大量的训练样本。在小样本场景中，由于缺乏足够多的样本，这些自监督方法可能学习到一种有偏的表示，从而导致对主任务的错误指导，引起小样本学习的性能下降。

本文提出条件自监督学习（Conditional Self-Supervised Learning，CSS）方法，利用先验知识指导自监督任务的表征学习。具体而言，CSS 利用有标记数据中固有的监督信息，改进自监督学习特征流形，从而减少表示偏差，以挖掘更有效的语义信息。另外，CSS 分别通过监督学习和改进的自监督学习挖掘出更多有意义的信息，并将这些信息整合成一个统一的分布，进一步丰富和拓展了原有的表示方法。大量实验表明，与现有的小样本学习方法相比，本文提出的方法在不进行任何微调的情况下，能够显著提高小样本分类的准确率。

论文标题：

Conditional Self-Supervised Learning for Few-Shot Classification

收录会议：

IJCAI 2021

论文链接：

https://www.ijcai.org/proceedings/2021/295

代码链接：

https://github.com/anyuexuan/CSS

背景介绍

与以往的深度学习方法需要大量人工标注数据不同，小样本学习仅需少量样本即可识别新的类别。最近的视觉小样本学习方法可以通过训练基类上的一组任务来学习可迁移的特征表示，并使用少量的样本将这种表示迁移到新（未见）类中 [1] 。然而，由于数据的稀缺性，得到的监督信息主要集中在基类样本的差异上，而忽略了对新类有价值的语义信息。因此，对于小样本分类问题，需要从有限的样本中提取更多的语义信息以获取更好的特征表示。

自监督学习作为一种重要的学习范式，在不依赖标记的情况下，能够探索出良好的视觉表征 [2] 。通常情况下，自监督学习通过对原始数据进行增强操作（如旋转）来构造增强视图，并构建可学习的任务来建立增强视图和原始视图的联系，从而从这些任务中学习自监督表示。另一种自监督方法使用对比损失，该损失使得来自相同数据的视图的表示（“正对”）更接近，不同数据的视图的表示（“负对”）更加分散。

动机

近年来，自监督学习被应用于小样本分类中。这些基于自监督的小样本学习方法以自监督任务为辅助任务，以原始的小样本分类任务为主任务，共同学习同一个特征表示 [3] 。然而，自监督通常依赖于大量训练样本，不适合小样本场景。而自监督学习任务在小样本场景中的直接应用可能学习到一些不适当的“捷径”（如边缘的连续性），而不是关键的语义信息。因此，自监督学习可能存在偏差，导致对主任务的错误指导，引起性能下降。

为了解决上述问题，我们提出了条件自监督学习（CSS），它可以更好地适应小样本分类。CSS 分别从有监督的小样本学习和自监督学习中学习两种特征表示。对于自监督部分，CSS 利用监督信息作为教师指导自监督学习。最后，将所有的信息整合到一个统一的分布中，进一步丰富了原有的表征。因此，CSS 学习可以举一反三，进一步提高小样本的泛化性能。值得注意的是，我们的方法与半监督学习方法有本质的区别，不需要任何辅助的未标记数据。

方法

图 1 所示，CSS 采用三阶段训练方式。首先，在预训练阶段，CSS 通过原有的有监督学习方法学习初始特征提取器。在自监督训练阶段，CSS 使用在预训练阶段学习得到的作为先验条件，以优化自监督模型的学习。在最后的元训练阶段，CSS 通过一种新的融合蒸馏方法（Fussion Distillation，FD）蒸馏前两阶段学习的特征和到最终的特征嵌入网络。

▲ 图1 条件自监督学习框架

3.1 预训练阶段

在预训练阶段，使用原型网络从小样本分类任务学习特征提取器。对于 N-way K-shot 问题，在每个 episode 中，执行一个小样本分类任务。

原型构建为

给定一个新样本，分类器输出第 k 类的标准化分类分数

其中是相似度函数。

该阶段的分类损失为

3.2 自监督训练阶段

自监督训练网络由自监督模块和条件模块组成。为了简单和灵活，本文使用 SimSiam [4] 作为自监督任务，其他自监督方法同样适用，其损失为。

在条件模块中，CSS 将自监督模块学习到的特征与预训练阶段学习到的特性对齐，最小化和之间的负余弦相似度：

其最终损失为

3.3 元训练阶段

该阶段提出融合蒸馏方法。对于样本，CSS 首先计算其对应的两个嵌入向量和，然后使用增强操作。通过计算不同样本的融合特征向量，得到对应特征矩阵。然后，可以计算两个样本特征之间的余弦相似度，并生成一个图 [5] ，其中每个顶点代表一个样本的特征

然后 CSS 对图矩阵进行标准化，以获得邻接矩阵：

然后采用融合蒸馏方法得到的嵌入向量

和预训练阶段类似，对于查询样本，分别获得和对应的原型分类器的第 k 类的标准化分数

最终的损失为

实验

4.1 与SOTA方法对比

为了验证方法的有效性，选取 CIFAR-FS、CUB-200、 -ImageNet 数据集来比较 CSS 和 SOTA 小样本学习方法的性能。实验设置在 5-way 的情况下，比较 600 个 episode 的平均准确度（%）和 95% 置信区间。

▲ 表 1 在 CIFAR-FS 数据集上与 SOTA 的比较

▲ 表 2 在 CUB-200 数据集上与 SOTA 的比较

▲ 表 2 在 -ImageNet 数据集上与 SOTA 的比较

在所有情况下，元训练完成后，CSS 的分类性能超过所有的 SOTA 算法，并取得了显著的优势。在 CIFAR-FS、CUB-200 和 -ImageNet 数据集上，CSS 与 5-shot 设置下的原型网络相比，性能提高了约 6%、7% 和 4%，而在 1-shot 设置下，性能提高了 13%、15% 和 6%。同时，在所有设置中，我们的方法的性能都比所有的 SOTA 方法高出 2% 到 5%。

4.2 消融实验

本节探讨条件模块在自监督学习中的重要性以及不同阶段的效果，并分别设计了五个案例来研究不同阶段组合时的表现。

SSL：原始的自监督学习

SL+SSL+FD：去除条件模块

SL（S1）：只保留预训练阶段

CSS（S1+S2）：不执行元学习训练阶段

CSS（S1+S2+S3）：完整的CSS

▲ 图3 不同设定在5-way 5-shot的对比结果

▲ 图3 不同设定在5-way 1-shot的对比结果

实验结果表明，条件模块在自监督学习中起着至关重要的作用，有效的特征融合方法可以进一步提高模型性能。

总结

在这项工作中，我们提出了条件自监督学习（CSS）的三阶段训练过程：预训练阶段、自监督的训练阶段和元训练阶段，每个训练阶段都有利于模型性能的提高。对于自监督训练阶段，CSS 利用预训练阶段学习到的监督信息来指导自监督学习，从而提高自监督学习在小样本环境下的适应性。在元训练阶段，CSS 采用了融合蒸馏方法，将前两个阶段的信息整合成一个统一的分布，从而丰富和扩展了原有的特征表示。充分的实验体现了 CSS 相比于其他 SOTA 算法的优越性。

参考文献

[1] Wei-Yu Chen, Yen-Cheng Liu, Zsolt Kira, Yu-Chiang Frank Wang, and Jia-Bin Huang. A closer look at few-shot classification. In ICLR, 2019.

[2] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey E. Hinton. A simple framework for contrastive learning of visual representations. In ICML, volume 119, pages 1597–1607, 2020.

[3] Spyros Gidaris, Andrei Bursuc, Nikos Komodakis, Patrick Perez, and Matthieu Cord. Boosting few-shot visual learning with self-supervision. In ICCV, pages 8058–8067, 2019.

[4] Xinlei Chen and Kaiming He. Exploring simple siamese representation learning. CVPR, pages 15750-15758, 2021.

[5] Thomas N. Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. In ICLR, 2017.

更多阅读