Lexical normalization, the translation of non-canonical data to standard language, has shown to improve the performance of manynatural language processing tasks on social media. Yet, using multiple languages in one utterance, also called code-switching (CS), is frequently overlooked by these normalization systems, despite its common use in social media. In this paper, we propose three normalization models specifically designed to handle code-switched data which we evaluate for two language pairs: Indonesian-English (Id-En) and Turkish-German (Tr-De). For the latter, we introduce novel normalization layers and their corresponding language ID and POS tags for the dataset, and evaluate the downstream effect of normalization on POS tagging. Results show that our CS-tailored normalization models outperform Id-En state of the art and Tr-De monolingual models, and lead to 5.4% relative performance increase for POS tagging as compared to unnormalized input.


翻译:将非卡门数据转换成标准语言的词汇正常化,这显示社会媒体上许多自然语言处理任务的业绩有所改善。 然而,尽管这些标准化系统在社交媒体中普遍使用,但这些正常化系统却经常忽略了使用多种语言,也称为代码转换(CS ) 。 在本文中,我们提出了三个专门设计用于处理代码转换数据的正常化模式,我们评估了两种语言对:印度尼西亚语-英语(Id-En)和土耳其语-德语(Tr-De),对于后者,我们为数据集引入了新型的正常化层及其相应的语言ID和POS标记,并评估了标准化对POS标记的下游效应。 结果显示,我们的CS定制的正常化模式超越了艺术和Tr-De单语模式的Id-En状态,并导致POS标记相对于非常规输入的相对性能提高5.4%。

0
下载
关闭预览

相关内容

最新《神经架构搜索NAS》教程,33页pdf
专知会员服务
26+阅读 · 2020年12月2日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
已删除
将门创投
5+阅读 · 2019年5月5日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Arxiv
0+阅读 · 2021年3月24日
Arxiv
8+阅读 · 2021年3月2日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
31+阅读 · 2018年11月13日
Arxiv
3+阅读 · 2018年3月2日
Arxiv
4+阅读 · 2018年2月13日
VIP会员
相关VIP内容
最新《神经架构搜索NAS》教程,33页pdf
专知会员服务
26+阅读 · 2020年12月2日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
已删除
将门创投
5+阅读 · 2019年5月5日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Top
微信扫码咨询专知VIP会员