会员服务 ·

【论文解读】如何在只有词典的情况下提升NER落地效果

2021 年 1 月 5 日 深度学习自然语言处理

点击上方，选择星标或置顶，每天给你送干货！

来自：NLP从入门到放弃

今天介绍一个论文autoner^[1]，主要是为了探索如何在只有词典的情况下，提升NER实际落地效果；

首先，如果手中含有词典，常规操作就是远程监督打标数据，然后做NER；

远程监督一个比较常见的操作就是使用我们手中的字典，通过字符匹配的形式对文本中可能存在的实体打标。

但是对于这种远程监督的形式，存在比较多的问题，这个论文主要探讨两种：多标签(multi-label tokens) 和标签不完善的问题；

针对multi-label tokens，论文提出的是Fuzzy-LSTM-CRF，简单讲就是讲LSTM后面的CRF层变为了Fuzzy CRF层，可以在处理tokens对应多标签的情况下，不牺牲计算效率；

第二个问题标签不完善，是因为字典毕竟是有限的，不可能把所有的实体都覆盖到，那么句子中没有被字典打标成功的词组很有可能也是某种实体，但是远程监督并没有对此做处理。

针对这个问题，本文提出了一种比较新的标注框架，简单来讲就是在这新的框架中，不去预测单个的token的类别，而是去判断两个相邻的tokens是不是在同一个实体中被tied；

上面只是我自己简单的分类，其实存在的两个问题和两种解决架构是相互融合在一起的，具体的我们下面谈。

0. 词典形式简单介绍

首先定义一下词典形式，包含两个部分，第一部分是实体的表面名称，这个包括规范名称和对应的同义词列表；第二个部分就是实体的类型；

其次，词典的标注肯定是有限的，肯定存在不在词典中的某些词组但是也属于某种类型的实体；

对于这部分实体，我自己的理解大体可以包含两个大部分；第一个大部分就是比如说【科技】这个领域覆盖的【科技】实体有有限的，所以有漏网之鱼；第二部分就是词典的实体类型是有限的，比如词典总共包含2个实体类型，但是你真实的文本包含更多的实体类型，存在漏网之鱼。

对于这些漏网之鱼的实体，我们的策略是这样的。

首先通过AutoPhrase从文中挖掘出来高质量短语，然后统一赋值为unknown type，也就是未知类型。

1. Fuzzy-LSTM-CRF

1.1 标注策略

梳理一下，我们现在手上有词典；

词典包含两个部分，一部分是已知实体类型（假设是2个，当然可能更多或者更少）；另一个部分就是我们通过某种方式挖掘出来的高质量实体对应的未知类型；

然后我们通过手中的词典对原始无标注文本进行打标；

那么现在对于句子中的某个token，它存在三种可能性；第一它可能是已知实体类型中的一种或者多种；第二它属于未知类型；第三是属于O这种情况，就是non-entity；

基于传统架构BIlstm-CRF如何解决多标签的问题？

其实本质解决的思路很简单。对于原来的每个token，只是预测一个类别，现在是预测多个类别就可以了。

详细点讲就是，首先对于远程监督标注的过程，我们会使用三种策略。

我们先假设我们使用{I；O；B；E；S}的标注形式；

第一，对于某个token，如果它对应到了已知类型中的某一个或者多个实体，那么按照对应的位置直接标记上，不要漏掉；也就是说{I；B；E；S}和对应的一个或者多个实体类型对上标；

第二对于对于某个token，如果属于未知类型，那么对应的这个token就需要把所有已知实体类型（区别于上面的一个或者多个已知实体类型）和 {I, O, B, E, S}对应的打标上；

注意，这里并没有使用未知实体类型，而是使用的所有的已知实体类型；

第三个对于既不属于已知类型的，也不属于未知类型的，全部打上O；

1.2 Fuzzy-LSTM-CRF 模型架构

其实很好理解，传统的CRF最大化唯一一条有效的标注序列。在这里，我们最大化所有有可能的标注序列。

公式如下：

看架构图：

2. AutoNER

区别于Fuzzy-LSTM-CRF 模型沿用传统架构，在这里论文提出一种新的标注架构-Tie or Break；

这个标注框架更加关注的是当前token和上一个token是否在同一个实体里面；如果在同一个实体里面，那么就标注为Tie；

如果当前单词和上一个单词至少有一个在unkonw类型的高质量短语，那么标注为unkonw，其他情况标注为Break；

优化过程：把实体识别和实体类型判定分离开。

原论文中描述的是先做实体识别，两个Break之间作为一个span，然后做实体类型判定；

实体识别中，对于当前单词和上一个单词之间类别的的输出，对Tie和Break做二分类损失，如果类别是unkown类别，直接跳过，不计算损失。

概率公式如下：

第二步预测实体类型，包含None实体类型

unkonw这种，知道这属于实体，在高质量短语词典中，但是不知道短语类型，所在这里我们会标注为None实体类型。

其他的不在词典中的，当然也就会被标注为None实体类型。

为了应对多标签，也就是同一个实体对应不同的类别，这里修改了最后的CE损失函数：

使用的是软标签的进行的CE的计算，并没有使用硬标签。

对应的是在远程监督中，当前实体真实类型标签集合。从公式我们可以知道，尤其是看分母，在不属于这个集合的标签概率我们并没有计算在内。

总结

多提一个小细节，就是高质量短语的挖掘使用的是AutoPhrase，大家可以去试一下；

论文提出两种结构解决多标签和标签不完善的问题。

首先对于标签不完善，使用上面提到的AutoPhrase去挖掘文本中的高质量短语，作为词典中的未知类型。

在Fuzzy-LSTM-CRF，需要注意的细节是，对于未知类型的标注，我们使用的策略是标注所有已知类型；

对于AutoNER，有两个细节需要注意，一个是新的标注框架tie or break，重点在于去看两个相邻单词是否属于同一个实体；第二个细节就是为了解决多标签问题，修改了损失函数，使用的软标签；

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析

整理不易，还望给个在看！

参考资料

[1]

Learning Named Entity Tagger using Domain-Specific Dictionary: https://arxiv.org/abs/1809.03599

登录查看更多

相关内容

远程监督

关注 1

AAAI2021 | 图神经网络研究进展解读

专知会员服务

65+阅读 · 2021年2月21日

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

中科院计算所刘昊淼博士论文《面向物体语义理解的视觉表示学习》

专知会员服务

44+阅读 · 2020年12月4日

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

【哈工大】深度域适应综述: 一般情况与复杂情况

专知会员服务

34+阅读 · 2020年10月10日

【IJCAI2020】通过双向对抗训练生成中间域样本提升半监督域自适应效果

专知会员服务

35+阅读 · 2020年9月17日

【2020 最新论文】对比学习中什么应该不是对比的？

专知会员服务

39+阅读 · 2020年8月16日

【中科院】命名实体识别技术综述

专知会员服务

157+阅读 · 2020年4月21日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

周志华教授：如何做研究与写论文？

专知会员服务

161+阅读 · 2019年10月9日

如何有效提升中文NER性能？词汇增强方法总结

AINLP

25+阅读 · 2020年6月15日

【论文解读】使用Lattice LSTM的中文NER

深度学习自然语言处理

7+阅读 · 2020年5月16日

【关系抽取】详聊如何用BERT实现关系抽取

深度学习自然语言处理

32+阅读 · 2020年3月21日

论文浅尝 | 利用问题生成提升知识图谱问答

开放知识图谱

20+阅读 · 2019年11月5日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

数据派THU

14+阅读 · 2019年6月15日

论文浅尝 | 基于知识库的类型实体和关系的联合抽取

开放知识图谱

35+阅读 · 2018年12月9日

EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量

PaperWeekly

6+阅读 · 2018年11月22日

一文详解深度学习在命名实体识别(NER)中的应用

AINLP

24+阅读 · 2018年10月23日

ACL 2018论文解读 | 基于路径的实体图关系抽取模型

PaperWeekly

14+阅读 · 2018年9月17日

专栏 | NLP专题论文解读：从Chatbot到NER

机器之心

17+阅读 · 2017年11月9日

Accented Speech Recognition: A Survey

Arxiv

0+阅读 · 2021年4月21日

Adaptive Universal Generalized PageRank Graph Neural Network

Arxiv

10+阅读 · 2021年1月22日

Generalized Multi-Relational Graph Convolution Network

Arxiv

10+阅读 · 2020年6月12日

Hierarchical Contextualized Representation for Named Entity Recognition

Arxiv

4+阅读 · 2019年11月19日

Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

Arxiv

10+阅读 · 2019年9月15日

Shallow Domain Adaptive Embeddings for Sentiment Analysis

Arxiv

5+阅读 · 2019年8月16日

Bidirectional Attention for SQL Generation

Arxiv

4+阅读 · 2018年6月21日

Neural Models for Key Phrase Detection and Question Generation

Arxiv

4+阅读 · 2018年5月30日

Flipped-Adversarial AutoEncoders

Arxiv

6+阅读 · 2018年4月4日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

VIP会员