通过优化运输蒸馏改进通过最佳运输方式获取低资源语言的跨语文信息 (Improving Cross-lingual Information Retrieval on Low-Resource Languages via Optimal Transport Distillation)

Benefiting from transformer-based pre-trained language models, neural ranking models have made significant progress. More recently, the advent of multilingual pre-trained language models provides great support for designing neural cross-lingual retrieval models. However, due to unbalanced pre-training data in different languages, multilingual language models have already shown a performance gap between high and low-resource languages in many downstream tasks. And cross-lingual retrieval models built on such pre-trained models can inherit language bias, leading to suboptimal result for low-resource languages. Moreover, unlike the English-to-English retrieval task, where large-scale training collections for document ranking such as MS MARCO are available, the lack of cross-lingual retrieval data for low-resource language makes it more challenging for training cross-lingual retrieval models. In this work, we propose OPTICAL: Optimal Transport distillation for low-resource Cross-lingual information retrieval. To transfer a model from high to low resource languages, OPTICAL forms the cross-lingual token alignment task as an optimal transport problem to learn from a well-trained monolingual retrieval model. By separating the cross-lingual knowledge from knowledge of query document matching, OPTICAL only needs bitext data for distillation training, which is more feasible for low-resource languages. Experimental results show that, with minimal training data, OPTICAL significantly outperforms strong baselines on low-resource languages, including neural machine translation.

翻译：从基于变压器的经过训练的预先语言模型中受益的神经排位模型已经取得重大进展。最近,多语言预先训练的语文模型的出现为设计神经跨语言检索模型提供了巨大的支持。然而,由于不同语言的培训前数据不平衡,多语言模型已经表明在许多下游任务中高语言和低资源语言之间的性能差距。在这种经过训练的模型上建立的跨语言检索模型可以继承语言偏见,导致低资源语言的不理想结果。此外,与英语到英语的检索任务不同,在诸如MS MARCO等文件排名方面有大量的标准化培训收藏,低资源语言的跨语言检索数据缺乏使培训跨语言检索模型更具挑战性。在这项工作中,我们建议:优化运输,为低资源跨语言的跨语言检索而优化。为了将高资源语言和低资源语言的跨语言标识统一作为最佳运输任务,从经过良好训练的单一语言检索模型中学习。通过将跨语言的跨语言知识与跨语言检索数据搜索模型进行对比,只有最起码的数据格式,用于最起码的离职后健康保险,只有最低限度的数据形式。

相关内容

MoDELS

关注 43

ACM/IEEE第23届模型驱动工程语言和系统国际会议，是模型驱动软件和系统工程的首要会议系列，由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来，模型涵盖了建模的各个方面，从语言和方法到工具和应用程序。模特的参加者来自不同的背景，包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛，参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会，并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。官网链接：http://www.modelsconference.org/

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

专知会员服务

23+阅读 · 2020年4月22日

【CMU-TACL2020】低资源跨语言实体链接，Low-resource Crosslingual EntityLinking

专知会员服务

17+阅读 · 2020年3月29日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日