Cognates are variants of the same lexical form across different languages; for example 'fonema' in Spanish and 'phoneme' in English are cognates, both of which mean 'a unit of sound'. The task of automatic detection of cognates among any two languages can help downstream NLP tasks such as Cross-lingual Information Retrieval, Computational Phylogenetics, and Machine Translation. In this paper, we demonstrate the use of cross-lingual word embeddings for detecting cognates among fourteen Indian Languages. Our approach introduces the use of context from a knowledge graph to generate improved feature representations for cognate detection. We, then, evaluate the impact of our cognate detection mechanism on neural machine translation (NMT), as a downstream task. We evaluate our methods to detect cognates on a challenging dataset of twelve Indian languages, namely, Sanskrit, Hindi, Assamese, Oriya, Kannada, Gujarati, Tamil, Telugu, Punjabi, Bengali, Marathi, and Malayalam. Additionally, we create evaluation datasets for two more Indian languages, Konkani and Nepali. We observe an improvement of up to 18% points, in terms of F-score, for cognate detection. Furthermore, we observe that cognates extracted using our method help improve NMT quality by up to 2.76 BLEU. We also release our code, newly constructed datasets and cross-lingual models publicly.


翻译:科尼亚特语是不同语言的同一种词汇形式变异; 例如, 西班牙语中的“ fonema” 和英语中的“phoneme” 是科尼亚特语, 两者都意味着“ 一个声音单位 ” 。 在两种语言中自动检测科尼亚特语的任务可以帮助下游的NLP 任务, 如跨语言信息检索、 计算基因学和机器翻译等 。 在本文中, 我们展示了使用跨语言词嵌入14种印度语言中检测科纳特语。 我们的方法是使用一个知识图表的上下文来产生更好的特征显示, 以更好地检测 Cognate 质量。 然后, 我们评估我们的 Cognate 检测机制对神经机器翻译(NMT)的影响, 作为一项下游任务。 我们评估了我们如何在12种印度语言的富有挑战性的数据集( Sanskrit、 印地语、 Assames、 Oriya、 Kannada、 Gulti、 泰米尔、 Telguugu、 旁遮普、 Benghi、 Marathi 和Malyalam) 。 此外, 我们为两种印度语的升级的检测、 Kon- bk- 和Cocal- democal- deal- deal- deal- deal- com- deal- deal- deal- deal- deal- deal- co) 的18 a 和 We- side- servational- servol- supal- deal- side- servation- 。 我们观测了两个的18 。

0
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
已删除
将门创投
8+阅读 · 2019年8月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
0+阅读 · 2022年2月16日
Arxiv
6+阅读 · 2021年7月26日
Arxiv
5+阅读 · 2019年11月22日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
Arxiv
3+阅读 · 2018年3月2日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关VIP内容
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
已删除
将门创投
8+阅读 · 2019年8月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员