论文浅尝 | Continual Learning for Named Entity Recognition

2022 年 6 月 25 日 开放知识图谱

笔记整理：李淑怡，天津大学硕士

动机

在许多真实任务下，常常需要引入新的实体类型，因此需要重新训练命名实体识别模型。当因为存储或安全问题限制对原始数据的访问时，那么为新实体类型重新标注原始数据的成本将会是高昂的。而现有的持续学习方法又很容易出现灾难性遗忘问题(catastrophic forgetting)。因此作者提出通过蒸馏学习保留先前学习的现有知识，使原模型指导新模型学习新的实体类型的持续学习方法。在CoNLL-03数据集和OntoNotes数据集上实验表明，该方法允许模型渐进地能学习新的实体类型，还能保留先前学习的知识。

亮点

本文的亮点主要包括：

1.该方法只需要标注新的实体，通过知识蒸馏保留原模型的知识，使得新的模型在原有模型的指导下学习新的实体类型，解决了灾难性遗忘问题。2.实验结果表明，该方法能够使得模型在不丢失先前知识的情况下学习新的实体类型。

概念及模型

该方法使用Teacher-Student的知识蒸馏框架，分为两个阶段：

1、训练原模型Teacher：首先在原有数据集 $E_i$ 上训练一个命名实体识别模型 $M_i$ ，训练时神经网络最后一层的输出使用以下softmax函数计算：

$Softmax(z_j)=(exp(z_j/T_m))/(∑_lexp(z_l/T_m)$

其中， $T_m$ 一个温度参数，通常设置为1。

2、训练新模型Student：当引入新的实体类型 $E_{news}$ 时，我们的目标是学习一个新模型 $M_{i+1}$ ， $M_{i+1}$ 能够标记 $E_i∪E_{news}$ 中的所有句子。为了使Student保留原模型的知识，将Teacher和Student之间的KL距离作为新模型训练的软目标，从而避免灾难性遗忘问题。Student在数据集 $D_{news}$ 上训练， $D_{news}$ 包含新的实体类型（带标签）也包含原有的数据（不带标签）。论文中，作者提出了两种产生新模型方法AddNER Model和ExtendNER Model。

AddNER Model

在该方法中，新模型 $M_{i+1}$ 对原模型 $M_i$ 克隆并且添加一层新的输出层来识别新的实体类型 $E_{news}$ 。因为数据集 $D_{news}$ 中仅 $E_{news}$ 中的句子带有标签y，为了防止灾难性遗忘问题，使用知识蒸馏。这意味着每一句话都要经过 $M_i$ 的指导，即通过 $M_i$ 为 $M_{i+1}$ 产生软目标。因此， $M_{i+1}$ 的损失函数不仅需要包含得到的新的实体类型的预测值与真实标签之间的交叉熵损失 $L_{CE}^{Add}=CE(y,p_{E_{news}}^{M_{i+1}})$ ，还需要包含原模型的分布 $p_{E_i}^{M_i}$ 与新模型的分布 $p_{E_{i+1}}^{M_{i+1}}$ 之间的KL距离 $L_{KL}^{Add}=KL(p_{E_i}^{M_i}, p_{E_{i+1}}^{M_{i+1}})$ 。因此， $M_{i+1}$ 的损失函数为：

$L_{Add}=αL_{KL}^{Add}+βL_{CE}^{Add}$

其中，α和β是平衡两个损失的贡献的超参数。

由于AddNER包含多个输出层，因此需要合并多个输出结果，对于这个问题，作者提出了一个启发式算法：

•如果所有层的预测结果均为O（即其他），则输出结果为O。•如果恰有一层的预测结果为B（即实体的起点），而其他层预测为O，则输出结果为B。•如果有多层的预测结果为B，而其余层预测为O，则以最高概率输出结果为B。•如果一层预测结果为I（即实体内），当且仅当它上一个字的标记为B或I。否则这一层的输出结果为O，并且再次应用该启发式算法来确定最终输出。

ExtendNER Model

在该方法中，新模型 $M_{i+1}$ 对原模型 $M_i$ 的克隆并且扩展输出层，即增加新的纬度以识别新的实体类型 $E_{news}$ 。同样的，在训练时，新模型 $M_{i+1}$ 依然需要考虑两种损失以在不丢失先前知识的情况下学习新的实体类型，当y=O时，计算原模型的分布 $p_{E_i}^{M_i}$ 与新模型的分布 $p_{E_{i+1}}^{M_{i+1}}$ 之间的KL距离 $L_{KL}^{E_x}=KL(p_{E_i}^{M_i},p_{E_{i+1}}^{M_{i+1} })$ 。当y≠O，即该词被标记为 $E_{news}$ 中的新实体类型时，计算新的实体类型的预测值与真实标签之间的交叉熵损失 $L_{CE}^x=CE(y,p_{E_{news}}^{M_{i+1}})$ 。总的损失函数也可以表示为：