在新领域中为命名实体识别(NER)训练神经模型通常需要额外的人工注释(例如,成千上万的标记实例),这些注释的收集通常是昂贵和耗时的。因此,一个关键的研究问题是如何以一种经济有效的方式获得监督。在这篇论文中,我们介绍了“实体触发器”,这是一种人类解释的有效代理,有助于NER模型的标签高效学习。实体触发器被定义为一个句子中的一组单词,这有助于解释为什么人们会识别句子中的实体。
我们众包14k实体触发器为两个精心研究的NER数据集。我们提出的触发器匹配网络模型,通过对触发器表示形式和软匹配模块的联合学习和自关注,可以方便地对不可见的句子进行标记。实验表明,该框架具有更高的成本效益,使用20%的触发注释语句可以获得与使用70%训练数据的传统监督方法相当的性能。我们公开发布收集的实体触发器和我们的代码。