Training data for machine learning models can come from many different sources, which can be of dubious quality. For resource-rich languages like English, there is a lot of data available, so we can afford to throw out the dubious data. For low-resource languages where there is much less data available, we can't necessarily afford to throw out the dubious data, in case we end up with a training set which is too small to train a model. In this study, we examine the effects of text normalization and data set quality for a set of low-resource languages of Africa -- Afrikaans, Amharic, Hausa, Igbo, Malagasy, Somali, Swahili, and Zulu. We describe our text normalizer which we built in the Pynini framework, a Python library for finite state transducers, and our experiments in training language models for African languages using the Natural Language Toolkit (NLTK), an open-source Python library for NLP.


翻译:机器学习模式的培训数据可能来自许多不同来源,其质量可能令人怀疑。 对于像英语这样的资源丰富的语言,有很多数据可供使用,因此我们可以承担丢弃可疑的数据。对于可用数据少得多的低资源语言,我们不能承担丢弃可疑的数据,万一我们最终要用一个小到无法培训模型的训练组来完成。在这项研究中,我们研究了一套非洲低资源语言 -- -- 南非荷兰语、阿姆哈拉语、豪萨语、伊格博语、马达加斯加语、索马里语、斯瓦希里语和祖鲁语 -- -- 的文本正常化和数据集质量的影响。我们描述了我们在皮尼框架内建造的文本标准化器,一个供有限的国家转基因师使用的Python图书馆,以及我们在非洲语言培训模式中使用自然语言工具包(NLTK)的实验,这是NLP的开放源的Python图书馆。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
105+阅读 · 2020年3月22日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
已删除
将门创投
14+阅读 · 2019年5月29日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
资源 | Python 中文书籍大集合
AI研习社
13+阅读 · 2018年12月20日
五个精彩实用的自然语言处理资源
机器学习研究会
6+阅读 · 2018年2月23日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
4+阅读 · 2020年5月25日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
4+阅读 · 2019年9月26日
VIP会员
相关资讯
已删除
将门创投
14+阅读 · 2019年5月29日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
资源 | Python 中文书籍大集合
AI研习社
13+阅读 · 2018年12月20日
五个精彩实用的自然语言处理资源
机器学习研究会
6+阅读 · 2018年2月23日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员