Word segmentation and part-of-speech tagging are two critical preliminary steps for downstream tasks in Vietnamese natural language processing. In reality, people tend to consider also the phrase boundary when performing word segmentation and part of speech tagging rather than solely process word by word from left to right. In this paper, we implement this idea to improve word segmentation and part of speech tagging the Vietnamese language by employing a simplified constituency parser. Our neural model for joint word segmentation and part-of-speech tagging has the architecture of the syllable-based CRF constituency parser. To reduce the complexity of parsing, we replace all constituent labels with a single label indicating for phrases. This model can be augmented with predicted word boundary and part-of-speech tags by other tools. Because Vietnamese and Chinese have some similar linguistic phenomena, we evaluated the proposed model and its augmented versions on three Vietnamese benchmark datasets and six Chinese benchmark datasets. Our experimental results show that the proposed model achieves higher performances than previous works for both languages.


翻译:在越南自然语言处理的下游任务中,单词分割和部分语音标记是两个关键的初步步骤。在现实中,人们在进行单词分割和部分语音标记时往往也考虑词组界限,而不是单词从左到右的单词标记。在本文件中,我们实施这一想法,通过使用简化选区分析器改进字分割和部分语音标记越南语言的文字分割和部分语音标记。我们用于联合单词分割和部分语音标记的神经模型有基于交错的通用报告格式选区分析器的结构。为了减少分解的复杂性,我们用一个单一标签来取代所有组成标签,标明语组。这一模型可以用预测的单词界限和其他工具的部分语音标记加以扩展。由于越南和中国有一些类似的语言现象,我们评估了三个越南基准数据集和六个中国基准数据集的拟议模型及其扩大版。我们的实验结果表明,拟议的模型的性能都高于两种语言的以往工作。

0
下载
关闭预览

相关内容

词性(part-of-speech)是词汇基本的语法属性,通常也称为词类。词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程,是中文信息处理面临的重要基础性问题。在语料库语言学中,词性标注(POS标注或PoS标注或POST),也称为语法标注,是将文本(语料库)中的单词标注为与特定词性相对应的过程,[1] 基于其定义和上下文。
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Arxiv
5+阅读 · 2018年5月5日
Arxiv
4+阅读 · 2018年1月29日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Top
微信扫码咨询专知VIP会员