Cross-lingual text representations have gained popularity lately and act as the backbone of many tasks such as unsupervised machine translation and cross-lingual information retrieval, to name a few. However, evaluation of such representations is difficult in the domains beyond standard benchmarks due to the necessity of obtaining domain-specific parallel language data across different pairs of languages. In this paper, we propose an automatic metric for evaluating the quality of cross-lingual textual representations using images as a proxy in a paired image-text evaluation dataset. Experimentally, Backretrieval is shown to highly correlate with ground truth metrics on annotated datasets, and our analysis shows statistically significant improvements over baselines. Our experiments conclude with a case study on a recipe dataset without parallel cross-lingual data. We illustrate how to judge cross-lingual embedding quality with Backretrieval, and validate the outcome with a small human study.


翻译:最近,跨语文文本表述方式受到欢迎,并成为许多任务的主干,例如无人监督的机器翻译和跨语文信息检索等等。然而,由于需要获得不同语文之间特定领域的平行语言数据,在标准基准范围以外的领域很难评价这种表述方式。在本文件中,我们提出一个自动衡量标准,用以评价跨语文文本表述方式的质量,在配对图像文本评价数据集中以图像作为替代。实验性地显示,回溯检索方式与附加说明的数据集中的地面事实指标高度相关,我们的分析显示基线在统计上有很大改进。我们的实验结束时,对没有平行的跨语文数据的食谱数据集进行了案例研究。我们举例说明如何判断跨语文版本质量与回溯检索数据库的连接,并用小型人类研究来验证结果。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
雪球
6+阅读 · 2018年8月19日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
雪球
6+阅读 · 2018年8月19日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员