Few-Shot Class-Incremental Learning for Named Entity Recognition
收录会议:
ACL 2022
论文链接:
https://aclanthology.org/2022.acl-long.43
Abstract
之前的面向 NER 的类增量学习的工作都是基于新类有丰富的监督数据的情况,本文聚焦更具挑战且更实用的问题:少样本 NER 的增量学习。模型只用少量新类样本进行训练,保证新类效果的前提下不遗忘旧类知识。为了解决少样本类增量学习的灾难性遗忘问题,我们使用训练好的 NER 模型对旧类生成合成数据来提升新类训练效果。我们还提出一个框架,通过合成数据和真实数据将 NER 模型从过去 step 中进行蒸馏。实验结果表明我们的方法对比 baseline 取得了很大的提升。 Intro
传统的 NER 通常在大规模的数据集上训练,然后直接应用到测试数据上不进行更多的适配。实际上,测试数据的实体类往往在训练集中没有出现过,因此我们希望模型可以增量地学习新的实体类。其中一个问题就是之前旧的训练数据可能由于各种原因不可用了(隐私等原因),这样会使在新类上微调时造成灾难性遗忘。
CI NER:类增量学习 NER 的 SOTA;EWC++:一个解决灾难性遗忘的方法;FSLL:类增量学习图片分类的 SOTA;AS-DFD:无数据蒸馏的文本分类的 SOTA;L-TAPNet+CDT:少样本序列标注的 SOTA。
▲ OntoNote上的消融实验
3.3 主实验
▲ CoNLL2003 5-shot
▲ CoNLL2003 10-shot
▲ OntoNote 5.0 5-shot P1(左)P2(右)
作者还做了一个可视化的实验:
(a)中有少量 LOC 标签的合成数据和真实分布很接近,但是其他的更多合成数据与真实分布差的很远。这可能是因为“O”类可能包含多种多样的信息造成其很难构造,使用这样的合成数据会导致 domain shift。
(b)中合成数据匹配真实数据分布,但是只有很少一部分合成数据与 LOC 标签的 token 相近,这是由于上文所说 D2 中并不存在 LOC 标签,将合成数据所有 token 与 D2 数据匹配会导致偏离 LOC 标签,丢失很多旧标签的信息。(c)中作者采用的方法合成数据中很多 token 与 LOC 接近,且其余 token 也与真实数据分布相匹配。
▲ 采用不同β
Conclusion
本文提出第一个类增量学习的少样本 NER 模型来解决灾难性遗忘。提出了使用上一时间步的模型来构建包含旧实体类的合成数据。合成数据提供了更加多样的包含新实体和旧实体的信息,使模型在少样本设置下不容易过拟合。本文也算是一篇启发性的论文,通过随机采样旧类实体标签序列以及只将“O”类与真实的新类数据以对抗的方式匹配,使合成数据更真实,且包含更多信息。