Recent advancements in language models based on recurrent neural networks and transformers architecture have achieved state-of-the-art results on a wide range of natural language processing tasks such as pos tagging, named entity recognition, and text classification. However, most of these language models are pre-trained in high resource languages like English, German, Spanish. Multi-lingual language models include Indian languages like Hindi, Telugu, Bengali in their training corpus, but they often fail to represent the linguistic features of these languages as they are not the primary language of the study. We introduce HinFlair, which is a language representation model (contextual string embeddings) pre-trained on a large monolingual Hindi corpus. Experiments were conducted on 6 text classification datasets and a Hindi dependency treebank to analyze the performance of these contextualized string embeddings for the Hindi language. Results show that HinFlair outperforms previous state-of-the-art publicly available pre-trained embeddings for downstream tasks like text classification and pos tagging. Also, HinFlair when combined with FastText embeddings outperforms many transformers-based language models trained particularly for the Hindi language.


翻译:最近基于反复出现的神经网络和变压器结构的语文模型的进展在不断出现的神经网络和变压器结构基础上,在一系列广泛的自然语言处理任务,如口服标记、名称实体识别和文本分类等的自然语言处理任务方面取得了最先进的成果。然而,这些语言模型大多是用英语、德语、西班牙语等高资源语言预先培训的。多种语言模型包括印度语、泰鲁古语、孟加拉语等印度语,但它们往往不能代表这些语言的语言特征,因为它们不是研究的主要语言。我们引入了HinFlair,这是一个语言代表模型(文字字符串嵌入),在大型单语印地文系统中预先培训。对6套文本分类数据集和印地语依赖树库进行了实验,以分析印地文中这些背景化字符串嵌入的功能。结果显示,HinFlair比以前用于下游任务(如文本分类和标注)的、经过预先培训的、可供公众使用的最新语言嵌入式的嵌入式要优于以前的状态。此外,HinFlair,在与经过快速嵌入后特别培训的印地语言模型之后,将许多变形语言制成外。

0
下载
关闭预览

相关内容

Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
33+阅读 · 2019年6月21日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
从 Word Embedding 到 Bert:一起肢解 Bert!
人工智能头条
17+阅读 · 2018年12月11日
已删除
将门创投
4+阅读 · 2018年6月4日
在Python中使用SpaCy进行文本分类
专知
24+阅读 · 2018年5月8日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关VIP内容
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
33+阅读 · 2019年6月21日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
从 Word Embedding 到 Bert:一起肢解 Bert!
人工智能头条
17+阅读 · 2018年12月11日
已删除
将门创投
4+阅读 · 2018年6月4日
在Python中使用SpaCy进行文本分类
专知
24+阅读 · 2018年5月8日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Top
微信扫码咨询专知VIP会员