【论文解读】IJCAI2019: 面向中文NER 基于lexicon rethinking的CNN模型

2020 年 3 月 5 日 深度学习自然语言处理

点击上方,选择星标置顶,每天给你送干货

阅读大概需要7分钟

跟随小博主,每天进步一丢丢


论文作者:Tao Gui等

论文标题:CNN-Based Chinese NER with Lexicon Rethinking

论文会议:IJCAI2019

论文链接:https://www.ijcai.org/Proceedings/2019/0692.pdf

论文代码: https://github.com/guitaowufeng/LR-CNN

一. 介绍

Motivation

本文模型提出的动机是,尽管现有的融合了lexicon信息的RNN模型在中文NER任务中取得了一定的成功,但这类模型存在两处缺点

  • 效率限制: 基于RNN的模型由于循环结构的限制无法进行并行操作,尤其是Lattice-LSTM;

  • Lexicon冲突问题: 当句子中的某个字符可能与lexicon中的多个word有关时,基于RNN的模型难以对此做出判断。例如,图一中的"长"可能属于"市长"一词,也可能属于"长隆"一词,而对"长"所属lexicon word判断的不同,将导致对字符"长"预测的标签不同。

图1

Proposed Model

基于以上问题,本文提出一种含有「rethinking 机制的CNN网络(LR-CNN)」,从以下两个方面对motivation中发现的问题进行解决

  • 通过CNN对句子与lexicon中存在的词语进行处理

  • 通过rethinking机制解决lexicon conflict: 大多数中文NER模型都通过前向网络结构对特征进行学习,因此无法在获得完整的句子信息后对lexicon conflict进行处理。因此通过再添加一层以高层特征为输入的feedback layer, 来调整lexicon words间的权重进而解决冲突问题。

Contibutions

本文总结如下三点贡献

  • 设计了能够将lexicon信息融入到中文NER的CNN结构模型,且有效地加速了模型的训练;

  • 设计了Rethinking机制来处理了上文所说的lexicon conflict问题;

  • 本文模型取得了较好的效果,且运行速度达到目前SOTA模型的3.21倍

模型设计

LR-CNN模型主要包括「Lexicon-Based CNNs」「Refining Networks with Lexicon Rethinking」两部分

Lexicon-Based CNNs

首先将输入的句子表示为 , 其中  表示句中  个字符维度为  的embedding表示;然后,对 lexicon 中能够与句子中字符序列匹配上的词语进行表示: = { , ...,  }, 其中  代表字符下标, 代表词语长度, 例如在图1中, =广州, =广州市。接下来「用CNN模型对字符特征进行编码,并通过attention模块融入lexicon信息」

CNN使用维度为  的矩阵作为卷积核,其中  代表卷积核窗口大小;CNN使用不同大小窗口的卷积核进行特征提取,当窗口大小为2时,表示抽取bigram特征,大小为  时,表示抽取 特征。卷积操作后得到的  句子特征表示为  , 将对应于  通过attention操作融入lexicon信息,attention部分的计算过程如下:

Refining Networks with Lexicon Rethinking

由于CNN的分层结构,低层的potential words信息无法影响到高层的words,因此设计rethinking机制,处理lexicon中potential words的冲突问题。

在本文中,将CNN的顶层特征  作为高层特征,通过向每一层CNN添加一个feedback layer来调整lexicon的权值,具体计算如下:

举例对这一过程进行说明,如果没有高层特征得到的"广州市"和"长隆",那么"市长"一词会对误导模型对字符"市"产生错误的预测。因此,需要通过高层特征("广州市")来降低"市长"一词在输出特征中权重。

在通过卷积核抽取  特征的同时,句子中每个位置上的字符分别都得到了一个表示,因此通过attn机制将同一字符在不同卷积尺度下的特征进行融合:

最后得到的将作为CRF层进行标签预测的输入。

Predicting with CRF

以  为输入,通过CRF层对字符标签进行预测

实验

主要介绍了数据集、比较的baseline模型以及超参设置,具体可见论文。

分析

在分析章节中,本文首先通过LR-CNN在不同数据集上取得的结果说明了LR-CNN的「实验效果」,同时通过decoding time指出了LR-CNN在「效率」上较之Lattice-LSTM的提高。

然后,作者分析了「句子长度」对模型的影响,从两方面与Lattice-LSTM进行对比:

  • LR-CNN在实验中所有句子长度的设定下都取得了优于Lattice-LSTM的效果,尤其是句子长度小于12个字符时。因此得出结论: 「LR-CNN较之Lattice-LSTM更加具有处理短句的优势」

  • 对不同句子长度下LR-CNN和Lattice-LSTM的decoding time进行统计,发现随着句子长度的增加,LR-CNN的速度降低较为稳定,而Lattice-LSTM的速度改变则比较显著。

最后,作者通过消融实验得出如下结论

消融实验 结论
去掉lexicon信息 lexicon信息对基于字符的中文NER是十分有用的
去掉rethinking机制 rethinking机制能够有效提高融合lexicon信息后模型的实验结果(因为它可以处理字符与lexicon中word的冲突问题)
同时去掉lexicon信息和rethinking机制 通过对比「仅去掉lexicon信息」「同时去掉lexicon和rethinking」的实验结果发现,rethinking机制对没有lexicon的模型也能有一定的提升作用


投稿或交流学习,备注: 昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多: 机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等
记得备注呦


如果对你有帮助,点个再看吧
登录查看更多
7

相关内容

命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
专知会员服务
73+阅读 · 2020年5月21日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
必读的7篇IJCAI 2019【图神经网络(GNN)】相关论文-Part2
专知会员服务
60+阅读 · 2020年1月10日
必读的7篇 IJCAI 2019【图神经网络(GNN)】相关论文
专知会员服务
91+阅读 · 2020年1月10日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
论文浅尝 | 基于知识库的神经网络问题生成方法
开放知识图谱
19+阅读 · 2019年6月21日
CNN与RNN中文文本分类-基于TensorFlow 实现
七月在线实验室
13+阅读 · 2018年10月30日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
Attention模型方法综述 | 多篇经典论文解读
PaperWeekly
107+阅读 · 2018年6月11日
论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
开放知识图谱
11+阅读 · 2018年4月25日
论文 | 基于CNN的目标检测算法
七月在线实验室
9+阅读 · 2017年12月7日
Arxiv
6+阅读 · 2020年4月14日
Interpretable CNNs for Object Classification
Arxiv
20+阅读 · 2020年3月12日
Arxiv
26+阅读 · 2018年9月21日
Arxiv
14+阅读 · 2018年5月15日
VIP会员
相关VIP内容
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
专知会员服务
73+阅读 · 2020年5月21日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
必读的7篇IJCAI 2019【图神经网络(GNN)】相关论文-Part2
专知会员服务
60+阅读 · 2020年1月10日
必读的7篇 IJCAI 2019【图神经网络(GNN)】相关论文
专知会员服务
91+阅读 · 2020年1月10日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
论文浅尝 | 基于知识库的神经网络问题生成方法
开放知识图谱
19+阅读 · 2019年6月21日
CNN与RNN中文文本分类-基于TensorFlow 实现
七月在线实验室
13+阅读 · 2018年10月30日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
Attention模型方法综述 | 多篇经典论文解读
PaperWeekly
107+阅读 · 2018年6月11日
论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
开放知识图谱
11+阅读 · 2018年4月25日
论文 | 基于CNN的目标检测算法
七月在线实验室
9+阅读 · 2017年12月7日
Top
微信扫码咨询专知VIP会员