NeurIPS 2021 | 通过寻找平坦最小值，克服小样本增量学习中的灾难性遗忘

2022 年 1 月 25 日 PaperWeekly

©作者 | FlyingBug

单位 | 哈尔滨工业大学（深圳）

研究方向 | 小样本学习

写在篇首

本文分享的这篇论文是 NeurIPS 2021的一篇 Few-Shot 增量学习 (FSCIL) 文章，这篇文章通过固定 backbone 和 prototype 得到一个简单的 baseline，发现这个 baseline 已经可以打败当前 IL 和 IFSL 的很多 SOTA 方法，基于此通过借鉴 robust optimize 的方法，提出了在 base training 训练时通过 flat local minima 来对后面的 session 进行 fine-tune novel classes，解决灾难性遗忘问题。

论文标题：

Overcoming Catastrophic Forgetting in Incremental Few-Shot Learning by Finding Flat Minima

收录会议：

NeurIPS 2021

论文链接：

https://arxiv.org/pdf/2111.01549.pdf

代码链接：

https://github.com/moukamisama/F2M

Motivation

不同于现有方法在学习新任务时尝试克服灾难性遗忘问题，这篇文章提出在训练 base classes 时就提出策略来解决这个问题。作者提出找到 base training function 的 flat local minima，最小值附近 loss 小，作者认为 base classes 分离地更好（直觉上，flat local minima 会比 sharp 的泛化效果更好，参阅下图 [2]）。

1.2 Contribution

作者发现一个简单的 baseline model，只要在 base classes 上训练，不在 new tasks 上进行适应，就超过了现有的 SOTA 方法，说明灾难性遗忘问题非常严重。作者提出在 primitive stage 来解决灾难性遗忘问题，通过在 base classes 上训练时找到 flat minima region 并在该 region 内学习新任务，模型能够更好地克服遗忘问题。

1.3 A Simple Baseline

作者提出了一个简单的 baseline，模型只在 base classes 上进行训练，在后续的 session 上直接进行推理。

Training(t=1)

在session 1上对特征提取器进行训练，并使用一个全连接层作为分类器，使用 CE Loss 作为损失函数，从session 2 ( ) 开始将特征提取器固定住，不使用 novel classes 进行任何 fine-tune 操作。

Inference(test)

使用均值方式获得每个类的 prototype，然后通过欧氏距离采用最近邻方式进行分类。分类器的公式如下：

其中表示类别的 prototype，表示类别的训练图片数量。同时作者将中所有类的 prototypes 保存下来用于后续的 evaluation。

作者表示通过这种保存 old prototype 的方式就打败了现有的 SOTA 方法，证明了灾难性遗忘非常严重。

1.4 Method

核心想法就是在 base training 的过程中找到函数的 flat local minima ，并在后续的 few-shot session 中在 flat region 进行 fine-tune，这样可以最大限度地保证在 novel classes 上进行 fine-tune 时避免遗忘知识。在后续增量 few-shot sessions ( ) 中，在这个 flat region 进行 fine-tune 模型参数来学习 new classes。

1.4.1 寻找Base Training的flat local minima

为了找到 base training function 的近似 flat local minima，作者提出添加一些随机噪声到模型参数，噪声可以被多次添加以获得相似但不同的 loss function，直觉上，flat local minima 附近的参数向量有小的函数值。

假设模型的参数，表示特征提取网络的参数，表示分类器的参数。表示一个有类标训练样本，损失函数。我们的目标就是最小化期望损失函数。

是数据分布是噪声分布，和是相互独立的。

因此最小化期望损失是不可能的，所以这里我们最小化他的近似，empirical loss：

是，是采样次数。这个 loss 的前半部分是为了找到 flat region，它的特征提取网络参数可以很好地区分 base classes。第二部分是通过 MSE Loss 的设计为了让 prototype 尽量保持不变，避免模型遗忘过去的知识。

1.4.2 在Flat Region内进行IFSL

作者认为虽然 flat region 很小，但对于 few-shot 的少量样本来说，足够对模型进行迭代更新。

通过欧氏距离使用基于度量的分类算法来 fine-tune 模型参数。

1.4.3 收敛性分析

我们的目标是找到一个 flat region 使模型效果较好。然后，通过最小化期望损失（噪声和数据的联合分布）。为了近似这个期望损失，我们在每次迭代中多次从采样，并使用随机梯度下降 (SGD) 优化目标函数。后面是相关的理论证明，感兴趣的可以自行阅读分析。

参考文献

[1] Shi G, Chen J, Zhang W, et al. Overcoming Catastrophic Forgetting in Incremental Few-Shot Learning by Finding Flat Minima[J]. Advances in Neural Information Processing Systems, 2021, 34.

[2] He H, Huang G, Yuan Y. Asymmetric valleys: Beyond sharp and flat local minima[J]. arXiv preprint arXiv:1902.00744, 2019.

更多阅读