Pretrained contextualized representations offer great success for many downstream tasks, including document ranking. The multilingual versions of such pretrained representations provide a possibility of jointly learning many languages with the same model. Although it is expected to gain big with such joint training, in the case of cross lingual information retrieval (CLIR), the models under a multilingual setting are not achieving the same level of performance as those under a monolingual setting. We hypothesize that the performance drop is due to the translation gap between query and documents. In the monolingual retrieval task, because of the same lexical inputs, it is easier for model to identify the query terms that occurred in documents. However, in the multilingual pretrained models that the words in different languages are projected into the same hyperspace, the model tends to translate query terms into related terms, i.e., terms that appear in a similar context, in addition to or sometimes rather than synonyms in the target language. This property is creating difficulties for the model to connect terms that cooccur in both query and document. To address this issue, we propose a novel Mixed Attention Transformer (MAT) that incorporates external word level knowledge, such as a dictionary or translation table. We design a sandwich like architecture to embed MAT into the recent transformer based deep neural models. By encoding the translation knowledge into an attention matrix, the model with MAT is able to focus on the mutually translated words in the input sequence. Experimental results demonstrate the effectiveness of the external knowledge and the significant improvement of MAT embedded neural reranking model on CLIR task.


翻译:未经事先培训的背景表示方式为许多下游任务提供了巨大的成功,包括文件排名。这种未经培训的表示方式的多语种版本为共同学习使用同一模式的多种语言提供了可能性。虽然在跨语言信息检索(CLIR)的情况下,通过这种联合培训预期会大增,但多语种环境中的模型不会达到与单一语言环境中的模型相同的性能水平。我们假想性能下降是由于查询和文件之间的翻译差距造成的。在单语种检索任务中,由于相同的词汇投入,这种未经培训的表示方式更容易确定文件中出现的查询术语。然而,在经过多语言预先培训的模型中,不同语言的文字被预测到相同的超空间,这种模型往往将查询术语转换为相关术语,也就是说,在类似的背景下,除了或有时而不是在单一语言环境中出现的同义语系。这种特性使得模型难以连接在查询和文件中都存在的术语。为了解决这一问题,我们建议一种新型混合关注变换模式(MAT),通过将外部文字水平知识转化为基于深度翻译的翻译结构,例如将Cliveralal oral oral oral oral oral mal laveal laction laction sal dable) laveal lax the mal lax the smod smod laveal lavelticlemental laveal lax the lax lax lax laveal lap lad sal lad sal lax ladal lad skintal lad ladal lavedal laved skindal ladal lad ladal lax ladal ladal ladal ladal ladal ladal ladal ladal ladal ladal ladal ladal ladal laddaldaldal ladal ladal ladal laddal ladal ladal ladal ladal ladal ladaldaldaldal ladaldaldaldal ladal ladal ladal

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
28+阅读 · 2021年6月18日
最新《Transformers模型》教程,64页ppt
专知会员服务
316+阅读 · 2020年11月26日
专知会员服务
48+阅读 · 2020年9月20日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
43+阅读 · 2020年9月7日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
计算机类 | 11月截稿会议信息9条
Call4Papers
6+阅读 · 2018年10月14日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
已删除
将门创投
10+阅读 · 2018年5月2日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
21+阅读 · 2019年8月21日
VIP会员
相关VIP内容
专知会员服务
28+阅读 · 2021年6月18日
最新《Transformers模型》教程,64页ppt
专知会员服务
316+阅读 · 2020年11月26日
专知会员服务
48+阅读 · 2020年9月20日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
43+阅读 · 2020年9月7日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
相关资讯
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
计算机类 | 11月截稿会议信息9条
Call4Papers
6+阅读 · 2018年10月14日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
已删除
将门创投
10+阅读 · 2018年5月2日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员