Named Entity Recognition (NER) from speech is among Spoken Language Understanding (SLU) tasks, aiming to extract semantic information from the speech signal. NER from speech is usually made through a two-step pipeline that consists of (1) processing the audio using an Automatic Speech Recognition (ASR) system and (2) applying an NER tagger to the ASR outputs. Recent works have shown the capability of the End-to-End (E2E) approach for NER from English and French speech, which is essentially entity-aware ASR. However, due to the many homophones and polyphones that exist in Chinese, NER from Chinese speech is effectively a more challenging task. In this paper, we introduce a new dataset AISEHLL-NER for NER from Chinese speech. Extensive experiments are conducted to explore the performance of several state-of-the-art methods. The results demonstrate that the performance could be improved by combining entity-aware ASR and pretrained NER tagger, which can be easily applied to the modern SLU pipeline. The dataset is publicly available at github.com/Alibaba-NLP/AISHELL-NER.


翻译:从演讲中命名实体识别(NER)是语言理解(SLU)的一项任务,目的是从语音信号中提取语义信息。语言识别(NER)通常通过两步管道完成,其中包括:(1) 使用自动语音识别(ASR)系统处理音频,(2) 对ASR产出应用NER制动器。最近的工作表明,从英语到法语演讲(E2E)对NER采用端到端(E2E)的方法的能力,这基本上是实体认知的ASR。然而,由于中文中文本中有许多同音和多部电话,因此,中文发言中文本中的NER实际上是一项更具挑战性的任务。在本文中,我们为中国演讲中文本中的NER引入了一个新的数据集AISEHLL-NER。进行了广泛的实验,以探索若干最新方法的性能。结果显示,通过将实体认知的ASR和预先培训的NERTger相结合,可以改进工作,这可以很容易地应用于现代SLU管道。数据设置在Githhub.com/Alib-Aliba-LA.NLA.NA.A.N.NA.N.ARIaba-LA.LA.LA.N.A.N.N.L.L.A.L.L.A.AG.AG.L.A.L.L.L.L.L.AG.A.A.A.A.A.A.A.A.A.A.A.A.A.A.A.A.A.A.A.A.L.L.L.A.A.A.A.A.A.A.A.A.A.A.A.A.A.A.A.L.L.A.L.L.A.L.A.A.A.L.L.A.A.L.L.L.A.A.A.A.A.A.A.A.L.L.A.A.A.A.A.A.A.A.L.L.L.L.L.L.A.A.A.A.A.A.A.A.A.A.A.A.A.A.A.A.A.A.A.L.L.

0
下载
关闭预览

相关内容

命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
26+阅读 · 2020年3月13日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
15+阅读 · 2018年2月4日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员