复旦大学邱锡鹏组：CNN-NER——极其简单有效的嵌套命名实体识别方法

会员服务 ·

复旦大学邱锡鹏组：CNN-NER——极其简单有效的嵌套命名实体识别方法

2022 年 9 月 18 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 陆星宇

单位 | 复旦大学

研究方向 | 自然语言处理

本文介绍一下复旦大学 NLP 组的一篇新的 NER 论文。

论文标题：

An Embarrassingly Easy but Strong Baseline for Nested Named Entity Recognition

论文链接：

https://arxiv.org/abs/2208.04534

问题简介

命名实体识别（NER）是自然语言处理的一个基本任务，该问题考虑的识别并分类给定文本中表达对实体的引用的文本片段（span），也就是所谓的命名实体（NE）。

过去的命名实体识别主要考虑的是扁平命名实体识别（flat NER）。近年来有一些工作考虑了实体之间可能存在嵌套关系，由此对应地提出嵌套命名实体识别（nested NER）这一新任务，并尝试给出了一些解决方案。

具体来说，如下图（1）所示：“上海市红十字会”就是一个典型的包含嵌套命名实体的例子。其中“上海市”是地名、“红十字会”是组织名、“上海市红十字会”是组织名且嵌套了上述两个命名实体。

▲ 图（1）嵌套命名实体示例

在嵌套命名实体识别任务中，虽然允许外层的命名实体嵌套内层的命名实体，但是并不允许命名实体之间的冲突（clash）。形象地说，就是不允许两个不同的命名实体之间首尾相交。

形式化地：

给定包含个词的输入序列，嵌套命名实体识别任务旨在从输入序列中提取出所有互不冲突的命名实体。其中每一个命名实体可以被表示为三元组，和分别表示其在序列中的起始和结束位置，为实体类型，为类型的总数。如下图（2）所示，我们定义实体和实体冲突当且仅当或。

▲ 图（2）命名实体冲突

有关工作

过去一共主要有四类范式用来解决嵌套命名实体识别任务：

① 基于序列标注（sequence labeling）的框架；

② 基于超图（hypergraph）的框架；

③ 基于序列到序列（Seq2Seq）的框架；

④ 基于片段分类（span classification）的框架。

本文跟进了《Named Entity Recognition as Dependency Parsing》这一论文的工作，同样采用了基于片段分类的解决方案。该论文提出采用起始和结束词来指明（pinpoint）对应片段，并利用双仿射解码器（Biaffine Decoder）来得到一个评分矩阵（score matrix），其元素（i , j）代表对应片段（开始位置为第 i 个词，结束位置为第 j 个词）为实体的分数。这一基于片段的方法在计算上易于并行，因此得到了广泛的采用。

考虑一共有种不同类型的命名实体，对于每一个长度为的输入序列，模型输出的评分矩阵的形状为。

一方面我们可以将这个张量理解成一个的方阵，其中方阵的每个位置的元素都是一个维向量，可以用于表示该位置对应文本片段的命名实体类别分布。而这个的方阵与输入序列的文本片段之间的映射是通过方阵元素的位置编码的，即使用方阵的第 i 行第 j 列的元素对应的维向量来表示原输入序列的第 i 个词到第 j 个词组成文本片段对应的实体类别分布（在矩阵的下三角区域，，对应的文本片段为第 j 个词到第 i 个词）。

下图（3）给出了一个形象的例子来帮助读者理解评分矩阵。

▲ 图（3）对评分矩阵的解释

然而，本文作者在此基础上注意到了过往的工作忽视了相邻片段间的彼此联系，并通过对评分矩阵的观察分析发现了临近的片段具有非常明显的空间关联，如下图（4）所示：

▲ 图（4）片段的空间关联图示

于是，本文作者提出可以从另一个方面将这个张量理解成一张通道数为（因为并不将其理解为分布向量，所以无需拘泥于维）、长宽为的图片，进一步采用计算机视觉领域常用的卷积神经网络（CNN）来建模这种空间联系，最终得到了一个简单但颇具竞争力的嵌套命名实体解决方案，作者将其命名为 CNN-NER。

模型介绍

接下来对本文提出的 CNN-NER 模型架构进行一个简要的介绍。

首先使用编码器（Encoder）如 BERT 对输入序列进行编码。在通过 BERT 等编码器获得了上下文有关的词嵌入（embedding）后，过去的工作通常会将其与静态的词嵌入以及字符级别的嵌入拼接起来并送入 BiLSTM 中获得聚合的词表示，但本文为了让模型架构比较简单，既没有采用更多的嵌入也没有额外引入 LSTM 层。

然后仿照之前的工作，采用了多头双仿射解码器（multi-head Biaffine Decoder）获取表示所有可能的片段对应的特征矩阵。

接下来，从维度上考察特征矩阵，可以将其视作多通道的图片，于是采用若干个常见的卷积块提取特征矩阵的空间特征。

最后，通过感知器（perceptron）和 Sigmoid 函数预测对应片段是命名实体的“概率”。其模型结构如下图（5）所示。训练的损失函数采用的是常见的二元交叉熵（BCE）。

▲ 图（5） CNN-NER模型结构图

本文使用了与之前工作相同的方法解码模型输出的概率，即采用如下的贪心选择：

首先丢弃所有预测概率低于 0.5 的片段，然后按照预测概率从高到低对片段进行排序，然后依次选择当前预测概率最高的片段，如果其不与之前已经解码出的命名实体冲突，则将该片段解码成一个新的命名实体，否则将其丢弃。如此迭代进行就得到了模型预测的输入序列的所有互不冲突的命名实体。

实验结果

为了验证 CNN-NER 的有效性，作者在 ACE2004、ACE2005 和 Genia 这三个被广泛使用的嵌套命名实体识别数据集上进行了实验, 并采用常见的准确率（Precession）、召回率（Recall）以及 F 值（F-score）作为评价指标。作者选取了最新的一些论文中提出的模型，例如 W2NER、Span-level Graph、Boundary Smoothing 等作为基线（baseline），并且为了公平比较都各自采取了与对应论文完全相同的数据和预处理方式，并且均使用了相同的分句进行对比。

CNN-NER 采用 RoBERTa-base 作为编码器，分别在 ACE2004、ACE2005 数据集上取得了 87.31 和 87.42 的平均 F1 值；采用 BioBERT-base 作为编码器，在 Genia 数据集上取得了 80.33 的平均 F1 值。此外从实验结果来看，采用不同的分句方式进行预处理会影响模型的性能，因此作者开源了一个统一的预处理脚本，用于呼吁和促进今后的工作进行更方便、更公平的比较。

最终实验结果表明：在使用相同或更少的模型参数的情况下，CNN-NER 在上述三个数据集上均达到或者超过了基线的性能（采用 F1 值作为评价指标）。

进一步的消融实验表明：CNN-NER 中采用 CNN 建模文本片段之间的联系的确能够显著提高基于片段分类的嵌套命名实体识别模型的性能，对片段的空间关系进行更好的建模可能成为未来嵌套命名实体识别的一个新的研究方向。

总结

总的来说，本文的贡献主要为：

1. 揭示了相邻的片段彼此之间具有特殊的联系，因此提出采用卷积神经网络建模片段间的交互。尽管非常简单，但这一改进在三个广泛使用的嵌套命名实体识别数据集上均取得了可观的性能提升。

2. 发现了不一致的数据预处理方式对性能有所影响，因此实现并公开了一个针对这三个常见嵌套命名实体数据集的预处理脚本，推动未来的工作进行更方便、更直接、更公平的性能比较。

3. 将片段的特征矩阵视作图片这一新颖视角可以启发后续进一步探索基于片段的嵌套命名实体识别方法。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

命名实体

关注 0

基于图卷积神经网络的文本分类方法研究综述

专知会员服务

40+阅读 · 2022年8月26日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

中文领域命名实体识别综述

专知会员服务

71+阅读 · 2021年8月20日

陈丹琦新作：关系抽取新SOTA，用pipeline方式挫败joint模型

专知会员服务

48+阅读 · 2020年11月7日

【复旦大学邱锡鹏教授】自然语言处理中的自注意力模型，53页ppt

专知会员服务

130+阅读 · 2020年9月2日

【ACL2020】命名实体识别即依存解析，Named Entity Recognition as Dependency Parsing

专知会员服务

61+阅读 · 2020年5月15日

【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取

专知会员服务

35+阅读 · 2020年5月1日

【TKDE2020-南洋理工】深度学习命名实体识别最新版，207篇参考文献

专知会员服务

92+阅读 · 2020年3月17日

【EMNLP2019教程】图神经网络GNN的自然语言处理，附315页PPT及作者博士论文下载

专知会员服务

78+阅读 · 2020年1月27日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

52+阅读 · 2019年12月28日

AAAI 2022 | 基于词对关系建模的统一NER，刷爆14个中英NER数据集

PaperWeekly

2+阅读 · 2022年4月11日

预训练模型对实体的表示能力差？一个简单有效的解法来了！（开源）

夕小瑶的卖萌屋

1+阅读 · 2022年4月5日

万字综述！命名实体识别（NER）的过去和现在

PaperWeekly

0+阅读 · 2021年10月29日

命名实体识别新SOTA：改进Transformer模型

AI科技评论

17+阅读 · 2019年11月26日

NLP命名实体识别开源实战教程 | 深度应用

AI100

15+阅读 · 2019年8月18日

一文读懂命名实体识别

人工智能头条

33+阅读 · 2019年3月29日

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

专知

46+阅读 · 2018年12月28日

专栏 | 用神经推理来帮助命名实体识别

机器之心

15+阅读 · 2018年11月8日

一文详解深度学习在命名实体识别(NER)中的应用

AINLP

24+阅读 · 2018年10月23日

神经网络结构在命名实体识别（NER）中的应用

全球人工智能

11+阅读 · 2018年4月5日

上下文无关文法在排列统计量研究中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

非单调映射迭代根的构造及其分类

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

4+阅读 · 2015年12月31日

并行子空间学习方法及其大规模图像识别应用研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于复杂网络的中文文本语义相似度研究

国家自然科学基金

3+阅读 · 2012年12月31日

非线性协整模型的有效估计、检验及其应用

国家自然科学基金

0+阅读 · 2012年12月31日

跌坎型底流消能工水流流动结构水力特性研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向文本挖掘的特征选择关键问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

融合指代消解和迁移学习的蛋白质交互关系抽取的研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于局部不变性特征流的相异场景密集匹配

国家自然科学基金

0+阅读 · 2011年12月31日

Mask the Correct Tokens: An Embarrassingly Simple Approach for Error Correction

Arxiv

0+阅读 · 2022年11月23日

A Dual-scale Lead-seperated Transformer With Lead-orthogonal Attention And Meta-information For Ecg Classification

Arxiv

0+阅读 · 2022年11月23日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Adaptive Graph Convolutional Network with Attention Graph Clustering for Co-saliency Detection

Arxiv

10+阅读 · 2020年3月13日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

CAN-NER: Convolutional Attention Network forChinese Named Entity Recognition

Arxiv

16+阅读 · 2019年4月3日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

Graph Convolutional Networks for Named Entity Recognition

Arxiv

17+阅读 · 2018年2月14日

Weakly Supervised One-Shot Detection with Attention Siamese Networks

Arxiv

14+阅读 · 2018年1月12日

VIP会员