From Word2Vec to GloVe, word embedding models have played key roles in the current state-of-the-art results achieved in Natural Language Processing. Designed to give significant and unique vectorized representations of words and entities, those models have proven to efficiently extract similarities and establish relationships reflecting semantic and contextual meaning among words and entities. African Languages, representing more than 31% of the worldwide spoken languages, have recently been subject to lots of research. However, to the best of our knowledge, there are currently very few to none word embedding models for those languages words and entities, and none for the languages under study in this paper. After describing Glove, Word2Vec, and Poincar\'e embeddings functionalities, we build Word2Vec and Poincar\'e word embedding models for Fon and Nobiin, which show promising results. We test the applicability of transfer learning between these models as a landmark for African Languages to jointly involve in mitigating the scarcity of their resources, and attempt to provide linguistic and social interpretations of our results. Our main contribution is to arouse more interest in creating word embedding models proper to African Languages, ready for use, and that can significantly improve the performances of Natural Language Processing downstream tasks on them. The official repository and implementation is at https://github.com/bonaventuredossou/afrivec


翻译:从Word2Vec到GloVe, 语言嵌入模式在目前自然语言处理中取得的最新艺术成果中发挥了关键作用。这些模式旨在为语言和实体提供重要和独特的矢量化表达方式和实体功能。这些模式证明能够有效地提取相似之处,并建立起反映文字和实体之间语义和背景含义的关系。非洲语言占世界通用语言的31%以上,最近受到许多研究。然而,就我们的知识而言,目前很少甚至根本没有这些语言和实体的词嵌入模式,而本文所研究的语言则没有。在描述Glove、Word2Vec和Poincar\e嵌入功能之后,我们建立了Word2Vec和Poincar\e字嵌入Fon和Nobiin的模型。我们测试了这些模式之间传输学习的实用性,作为非洲语言的一个里程碑,共同参与缓解其资源稀缺性,并试图提供我们成果的语言和社会解释。我们的主要贡献是在创建Glove、Word2Vec和Poincar\'e嵌入语言/Rendorisma 正确应用这些模式, 并大大改进了非洲语言/Riversalingsmainalal ligual ligualal lives的使用。

0
下载
关闭预览

相关内容

分散式表示即将语言表示为稠密、低维、连续的向量。 研究者最早发现学习得到词嵌入之间存在类比关系。比如apple−apples ≈ car−cars, man−woman ≈ king – queen 等。这些方法都可以直接在大规模无标注语料上进行训练。词嵌入的质量也非常依赖于上下文窗口大小的选择。通常大的上下文窗口学到的词嵌入更反映主题信息,而小的上下文窗口学到的词嵌入更反映词的功能和上下文语义信息。
因果图,Causal Graphs,52页ppt
专知会员服务
241+阅读 · 2020年4月19日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
38+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
word2Vec总结
AINLP
3+阅读 · 2019年11月2日
CCF推荐 | 国际会议信息10条
Call4Papers
7+阅读 · 2019年5月27日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
人工智能 | NIPS 2019等国际会议信息8条
Call4Papers
7+阅读 · 2019年3月21日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Arxiv
29+阅读 · 2020年3月16日
Revealing the Dark Secrets of BERT
Arxiv
4+阅读 · 2019年9月11日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
因果图,Causal Graphs,52页ppt
专知会员服务
241+阅读 · 2020年4月19日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
38+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
word2Vec总结
AINLP
3+阅读 · 2019年11月2日
CCF推荐 | 国际会议信息10条
Call4Papers
7+阅读 · 2019年5月27日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
人工智能 | NIPS 2019等国际会议信息8条
Call4Papers
7+阅读 · 2019年3月21日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Top
微信扫码咨询专知VIP会员