Pre-trained language models lead Named Entity Recognition (NER) into a new era, while some more knowledge is needed to improve their performance in specific problems. In Chinese NER, character substitution is a complicated linguistic phenomenon. Some Chinese characters are quite similar for sharing the same components or having similar pronunciations. People replace characters in a named entity with similar characters to generate a new collocation but referring to the same object. It becomes even more common in the Internet age and is often used to avoid Internet censorship or just for fun. Such character substitution is not friendly to those pre-trained language models because the new collocations are occasional. As a result, it always leads to unrecognizable or recognition errors in the NER task. In this paper, we propose a new method, Multi-Feature Fusion Embedding for Chinese Named Entity Recognition (MFE-NER), to strengthen the language pattern of Chinese and handle the character substitution problem in Chinese Named Entity Recognition. MFE fuses semantic, glyph, and phonetic features together. In the glyph domain, we disassemble Chinese characters into components to denote structure features so that characters with similar structures can have close embedding space representation. Meanwhile, an improved phonetic system is also proposed in our work, making it reasonable to calculate phonetic similarity among Chinese characters. Experiments demonstrate that our method improves the overall performance of Chinese NER and especially performs well in informal language environments.


翻译:培训前语言模型将名副其实的识别( NER) 引向一个新时代, 而需要更多知识来提高他们在特定问题中的性能。 在中国净化中, 字符替换是一个复杂的语言现象。 一些中国字符在共享相同组件或具有类似发音方面相当相似。 人们替换了名称实体中具有类似字符的字符, 以生成新的同名词, 但指同一对象。 在互联网时代,这种字符替换变得更加常见, 并常常被用来避免互联网审查或只是为了好玩。 这种字符替换对于这些预先培训的语言模型并不友好, 因为新合用语言是偶尔的。 因此, 在中国净化中, 字符替换总是导致在 NER 任务中出现无法识别或识别错误。 在本文中, 我们提出了一种新的方法, 中国名实体识别( MFE-NER) 的多功能组合, 以生成新的同名字符来生成新的同名同名, 并同时处理中国名实体识别的字符替换问题。 MEFE 将语、 glyph 和语音特性结合在一起。 在Glyph 域域域域中, 我们无法配置的中文字符将中国字符转换成类似结构, 将相同的功能插入一个类似结构。

4
下载
关闭预览

相关内容

专知会员服务
20+阅读 · 2021年4月15日
【IJCAI2020】图神经网络预测结构化实体交互
专知会员服务
42+阅读 · 2020年5月13日
专知会员服务
60+阅读 · 2020年3月19日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
一文读懂命名实体识别
AINLP
31+阅读 · 2019年4月23日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
5+阅读 · 2019年11月22日
VIP会员
相关资讯
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
一文读懂命名实体识别
AINLP
31+阅读 · 2019年4月23日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员