Despite advances in neural machine translation, cross-lingual retrieval tasks in which queries and documents live in different natural language spaces remain challenging. Although neural translation models may provide an intuitive approach to tackle the cross-lingual problem, their resource-consuming training and advanced model structures may complicate the overall retrieval pipeline and reduce users engagement. In this paper, we build our end-to-end Cross-Lingual Arabic Information REtrieval (CLAIRE) system based on the cross-lingual word embedding where searchers are assumed to have a passable passive understanding of Arabic and various supporting information in English is provided to aid retrieval experience. The proposed system has three major advantages: (1) The usage of English-Arabic word embedding simplifies the overall pipeline and avoids the potential mistakes caused by machine translation. (2) Our CLAIRE system can incorporate arbitrary word embedding-based neural retrieval models without structural modification. (3) Early empirical results on an Arabic news collection show promising performance.


翻译:尽管在神经机器翻译方面取得了进展,但跨语言检索任务仍然具有挑战性,因为查询和文件在不同自然语言空间中存在,虽然神经翻译模式可以为解决跨语言问题提供直观方法,但其耗资培训和先进的模型结构可能会使整个检索管道复杂化,减少用户参与。在本文件中,我们根据跨语言嵌入词端到端的跨语言阿拉伯语信息检索网(CLAIRE)系统建立我们基于跨语言嵌入词的端到端的跨语言的阿拉伯语信息检索网(CLAIRE)系统,其中搜索者假定对阿拉伯语有可逾越的被动理解,并且提供各种英文辅助信息,以帮助检索经验。拟议的系统有三大优点:(1) 使用英语嵌入词将整个管道简化,避免机器翻译可能造成的错误。(2) 我们的CLAIRE系统可以在不作结构修改的情况下纳入任意的单词嵌入神经检索模型。(3) 阿拉伯语新闻收藏的早期经验结果显示有良好的表现。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
15+阅读 · 2021年8月13日
专知会员服务
159+阅读 · 2020年7月27日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
专知会员服务
59+阅读 · 2020年3月19日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
LibRec 精选:位置感知的长序列会话推荐
LibRec智能推荐
3+阅读 · 2019年5月17日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
干货 | 为你解读34篇ACL论文
数据派THU
8+阅读 · 2018年6月7日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Arxiv
12+阅读 · 2020年6月20日
Arxiv
4+阅读 · 2020年5月25日
An Analysis of Object Embeddings for Image Retrieval
Arxiv
4+阅读 · 2019年5月28日
Arxiv
3+阅读 · 2018年3月2日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
LibRec 精选:位置感知的长序列会话推荐
LibRec智能推荐
3+阅读 · 2019年5月17日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
干货 | 为你解读34篇ACL论文
数据派THU
8+阅读 · 2018年6月7日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Top
微信扫码咨询专知VIP会员