Urdu is a widely spoken language in South Asia. Though immoderate literature exists for the Urdu language still the data isn't enough to naturally process the language by NLP techniques. Very efficient language models exist for the English language, a high resource language, but Urdu and other under-resourced languages have been neglected for a long time. To create efficient language models for these languages we must have good word embedding models. For Urdu, we can only find word embeddings trained and developed using the skip-gram model. In this paper, we have built a corpus for Urdu by scraping and integrating data from various sources and compiled a vocabulary for the Urdu language. We also modify fasttext embeddings and N-Grams models to enable training them on our built corpus. We have used these trained embeddings for a word similarity task and compared the results with existing techniques.


翻译:乌尔都语是南亚广泛使用的语言。 虽然乌尔都语有中等文学, 但数据仍不足以自然地用NLP技术处理语言。 英语、 高资源语言存在非常高效的语言模式, 但乌尔都语和其他资源不足的语言长期以来一直被忽略。 要为这些语言创建高效的语言模式, 我们必须有好的字嵌入模式。 对于乌尔都语, 我们只能用跳格模式来找到经过培训和开发的词嵌入模式。 在本文中, 我们通过从各种来源中提取和整合数据, 并编集乌尔都语词汇, 建立了乌尔都语的集合。 我们还修改了快速文本嵌入模式和N- grams 模式, 以便能够在我们构建的文体上对其进行培训。 我们用这些经过训练的嵌入模式来完成一个词相似的任务, 并将结果与现有技术进行比较 。

0
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
BERT相关论文、文章和代码资源汇总
AINLP
19+阅读 · 2018年11月17日
Arxiv
4+阅读 · 2020年5月25日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
7+阅读 · 2018年1月30日
Arxiv
5+阅读 · 2018年1月18日
Arxiv
5+阅读 · 2017年10月27日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
BERT相关论文、文章和代码资源汇总
AINLP
19+阅读 · 2018年11月17日
Top
微信扫码咨询专知VIP会员