微软、UIUC韩家炜组联合出品：少样本NER最新综述

2021 年 11 月 29 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 蔡杰

单位 | 北京大学硕士生

研究方向 | QA

当前的机器学习和深度学习模型都需要大量的标注数据来进行训练，以达到一个较好的效果。但是在带 label 的训练样本很少或很难获取的情况下，直接训练模型通常不会有很好的泛化能力，反而容易造成模型对样本过拟合以及对目标任务欠拟合。针对这几个问题少样本学习（few shot learning）应运而生，少样本学习指的是在 NLP 任务中只使用少量的标记样本训练模型，使得模型可以有效的学习小样本中的信息。本文针对 NER 领域中的 few shot learning 做了一个综述。

论文标题：

Few-Shot Named Entity Recognition: A Comprehensive Study

论文链接：

https://arxiv.org/pdf/2012.14978.pdf

Background on Few-shot NER

命名实体识别任务可以看做是一个序列标注任务，输入输出分别是如下形式：

其中输入 X 是长度为 T 个 tokens 的文本，输出 Y 是长度为 T 个 tokens 的标签。整个带有标签的训练集合可以表示为如下形式：

其中 N 表示的是该集合中样本的个数。

Pipeline Method： 在 NER 领域中常用的基于预训练模型的 Pipeline 方法是将预训练模型作为特征提取器，在预训练模型之后直接添加一层 Linear 和 Softmax，训练的时候调整 Linear 的参数，预训练模型的参数可以选择训练也可以选择保持不变。具体模型图如下：

三个问题

可能有人会问为什么要将 Few-shot 应用到 NER 中，毕竟 NER 可以通过一些远程监督的方法获取到 NER 标注样本，但是远程监督方法获取到的样本会存在很多噪声，其次无法保证远程监督标注的领域完全适应以及词表的完整性，也就是会有实体 OOV 的问题。因此将 Few-shot 方法应用 NER 也是一个很值得研究的方向。

了解了背景和基本做法之后，本文提出了将 few shot learning 应用于 NER 领域中需要面临的三个核心问题：

1. How to adapt meta-learning such as prototype-based methods for few-shot NER?

如何将元学习方法作为 prototype-based 的方法应用到 few-shot NER 领域中？

2. How to leverage freely-available web data as noisy supervised pre-training data?

如何利用大量免费可用的网页数据构造出 noisy supervised 方法中的预训练数据？

3. How to leverage unlabeled in-domain sentences in a semi-supervised manner?

如何在半监督的范式中利用好 in-domain 的无标注数据？

基于以上三个核心问题，作者整体分了三个方向来介绍当前 few shot learning 在 NER 领域的应用：

Prototype Methods

这里提到的 prototype methods 是基于 meta-learning 方法的 few-shot 方法。meta-learning 的核心思想就是让模型在多个具有大量标注数据的任务上学习，从而具备泛化到某个只有少量标注数据的任务上。

首先定义两个集合 S 和 Q：

Support set（M 个 entity types, 每个 entity types 有 K/K' 个 sentence）

prototypes：在与单个 token 相同的表示空间中将 entity type 表示为向量。（也就是把 label 映射为对应的向量，向量的构造方法是将所有属于该类别的 token 向量求和平均。）

对于一个新输入的 token 来说，将其输入模型后得到的输出和所有 prototypes 进行距离计算：

训练过程中 support set 中的 entity type 会通过采样不断迭代变化，infer 的时候则是对新的 token 使用最近邻（NN）算法计算最接近的那个类别。

[1] 在 few shot 的 NER 上探索了原型网络（prototypical network），但是 [1] 只使用了 RNN 作为主干模型，没有利用基于 Transformer 的体系结构的模型来对文本进行表示。因此可能该方法可能并没有将原型网络的效果发挥出来。

本文的工作类似于 [2] [3] ，他们都使用 KNN 来分配实体类型，但不同之处在于他们是将最近的 K 个邻居与每个个体 token 进行比较，而本文则是通过原型（prototype）来进行比较。因此，当给定示例的数量增加时，本文的方法更 scalable。

Noisy Supervised Pretraining

我们都知道通过预训练模型可以用于获取每个句子甚至每个 token 的 embedding 表示。但这些表示有个特点就是他们对于所有下游任务都是不可知的，也就是说预训练模型在预训练过程中对待每个 token 都是一致的。但是很多下游任务中，对某些特定的 token 需要有特别的处理。比如在 NER 任务中，对于“Mr. Bush asked Congress to raise to $ 6 billion”这句话，模型需要能够辨认出“Congress”是一个 entity，而“to”只是一个普通的 token。

那如何才能让预训练模型具备这种识别实体的能力呢？作者提出了一种利用大规模带噪声的网页数据（WiNER）来进行噪声监督预训练（noisy supervised pre-training）的方法。在 WiNER 中，包含着相较于下游任务更为丰富的实体类型，比如“Musician”和“Artist”通常表示的是两种不同的实体类型，而在常见的 NER 评测标准中二者都被归类为“Person”类型。

因此作者认为使用大规模带噪声的数据预训练模型时，模型既可以学到区分实体的能力，又不会学到和下游任务完全一致的信息导致模型过拟合。

Self-Training

Self-Training 是一种半监督学习方法，利用到了大量无标注数据和少量标注数据。

1）先通过标注数据学习一个 teacher 模型；

2）通过 teacher 模型给无标注数据进行标注 soft 标签；

3）使用标注数据和具有 soft 标签的数据训练 student 模型；

以上训练过程可以以迭代的方式进行，从而提升模型效果：

Expriments

之后本文在以上提到的几种方法上做了像相应的实验：

backbone network：pre-trained base RoBERTa
dataset：

Results

LC ：linear classifier fine-tuning（fine-tuning 整个模型）
P ：prototype-based method
NSP ：noisy supervised pre-training
ST：self-training
通过比较第 1 列和第 2 列（或比较第 3 列和第 3 列），可以看出在大多数数据集中（特别是在 5-shot 的设置下）噪声监督预训练取得了最好的结果，这表明 NSP 任务赋予了模型更强的提取 NER 相关特征的能力。
第 1 列和第 3 列之间的比较的是 LC 和基于原型的方法之间的差别：虽然基于原型的方法在 5-shot 中比 LC 在 CoNLL、WikiGold、WNUT17 和 Mul-tiwoz 上获得了更好的性能，但在其他数据集和平均统计数据上，它不如 LC，说明基于原型的方法只有在标记数据非常有限的情况下才能产生更好的结果。
当比较第 5 列和第 1 列（或比较第 6 列和第 2 列）时，可以看到使用 Self-Training 始终比仅使用标记数据进行微调更有效，这表明 ST 是能够有效利用域内未标记数据的方法。
第 6 列则展示了大多数情况下 F1 的最高分数，表明本文提出的三个方案是相互补充的，并且可以结合起来在实践中产生最佳结果。

Conclusion

本文总结了目前 few shot NER 任务中所用到的相关方法，主要包括三种基本方法及其组合：基于原型的方法（Prototype Methods），有噪声监督的预训练（Noisy Supervised Pretraining）和自训练（Self-Training）。本文在 10 个不同设置的公共数据集上对它们进行了深入比较。所有这些方法都可以提高 PLM 的泛化能力，能够从只有几个 token 的 example 中学习，其中有监督的预训练和自训练尤其有效。

参考文献

[1] Alexander Fritzler, V. Logacheva, and M. Kretov. 2019. Few-shot classification in named entity recognition task. Proceedings of the 34th ACM/SIGAPP Sympo- sium on Applied Computing.

[2] M. Ziyadi, Yuting Sun, A. Goswami, Jade Huang, and W. Chen. 2020. Example-based named entity recog- nition. ArXiv, abs/2008.10570.

[3] Sam Wiseman and K. Stratos. 2019. Label-agnostic sequence labeling by copying nearest neighbors. ArXiv, abs/1906.04225.

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。