题目: Should All Cross-Lingual Embeddings Speak English?

摘要:

最近关于跨语言词嵌入的研究大多以英语为中心。绝大多数词汇归纳评价词典都介于英语和另一种语言之间,在多语言环境下学习时,默认选择英语嵌入空间作为中心。然而,通过这项工作,我们对这些实践提出了挑战。首先,我们证明了中心语言的选择对下游词汇归纳和零标注词性标注性能有显著的影响。其次,我们都扩展了一个以英语为中心的标准评估词典集合,以包括所有使用三角统计的语言对,并为代表不足的语言创建新的词典。对所有这些语言对的现有方法进行评估,有助于了解它们是否适合对来自遥远语言的嵌入进行校准,并为该领域带来新的挑战。最后,在我们的分析中,我们确定了强跨语言嵌入基线的一般准则,扩展到不包括英语的语言对。

成为VIP会员查看完整内容
7

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
单语言表征如何迁移到多语言去?
AI科技评论
5+阅读 · 2019年11月21日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
21+阅读 · 2019年9月6日
Facebook开源增强版LASER库,包含93种语言工具包
机器之心
5+阅读 · 2019年1月23日
CoNLL 2018 | 最佳论文揭晓:词嵌入获得的信息远比我们想象中的要多得多
黑龙江大学自然语言处理实验室
3+阅读 · 2018年11月2日
OpenAI NLP最新进展:通过无监督学习提升语言理解
人工智能头条
6+阅读 · 2018年6月18日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关VIP内容
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
相关资讯
微信扫码咨询专知VIP会员