多种语言语言的ColBERT-X (Multilingual ColBERT-X) - 专知论文

会员服务 ·

0

秩 · MoDELS · XLM-R · MS MARCO · 神经语言模型 ·

2022 年 9 月 3 日

Multilingual ColBERT-X

翻译：多种语言语言的ColBERT-X

Dawn Lawrie,Eugene Yang,Douglas W. Oard,James Mayfield

from arxiv, 6 pages

ColBERT-X is a dense retrieval model for Cross Language Information Retrieval (CLIR). In CLIR, documents are written in one natural language, while the queries are expressed in another. A related task is multilingual IR (MLIR) where the system creates a single ranked list of documents written in many languages. Given that ColBERT-X relies on a pretrained multilingual neural language model to rank documents, a multilingual training procedure can enable a version of ColBERT-X well-suited for MLIR. This paper describes that training procedure. An important factor for good MLIR ranking is fine-tuning XLM-R using mixed-language batches, where the same query is matched with documents in different languages in the same batch. Neural machine translations of MS MARCO passages are used to fine-tune the model.

翻译：ColBERT-X是跨语言信息检索(CLIR)的密集检索模式,在CLIR中,文件用一种自然语言写成,而询问则用另一种语言表示。与此相关的一项任务是多语言的IR(MLIR),该系统创建了以多种语言写成的文件的单一排名清单。鉴于ColBERT-X(ColBERT-X)依靠预先培训的多语言神经语言模型来对文件进行排位,多语言培训程序可以使ColBERT-X(CLIR)的版本适合MLIR(CLIR) 。本文描述了培训程序。良好的 MLIR排名的一个重要因素是使用混合语言批量的微调 XLM-R(XLM-R),同一批次的查询与不同语言的文件相匹配。使用MS MARCO通道的神经机器翻译来微调模型。

0

相关内容

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

自然语言处理顶会NAACL2022最佳论文出炉！

自然语言处理顶会NAACL2022最佳论文出炉！

专知会员服务

43+阅读 · 2022年6月30日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【知识图谱嵌入补全综述论文】embedding models for knowledge base completion

【知识图谱嵌入补全综述论文】embedding models for knowledge base completion

专知会员服务

102+阅读 · 2020年4月25日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

ACL 2022 主会长文论文分类整理

ACL 2022 主会长文论文分类整理

RUC AI Box

4+阅读 · 2022年4月20日

论文周报 | 推荐系统领域最新研究进展

论文周报 | 推荐系统领域最新研究进展

机器学习与推荐算法

2+阅读 · 2022年4月11日

ACM TOMM Call for Papers

ACM TOMM Call for Papers

CCF多媒体专委会

2+阅读 · 2022年3月23日

【ICIG2021】Latest News & Announcements of the Workshop

【ICIG2021】Latest News & Announcements of the Workshop

中国图象图形学学会CSIG

0+阅读 · 2021年12月20日

会议交流 | IJCKG: International Joint Conference on Knowledge Graphs

会议交流 | IJCKG: International Joint Conference on Knowledge Graphs

开放知识图谱

0+阅读 · 2021年9月9日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文推荐】最新六篇知识图谱相关论文—全局关系嵌入、时序关系提取、对抗学习、远距离关系、时序知识图谱

【论文推荐】最新六篇知识图谱相关论文—全局关系嵌入、时序关系提取、对抗学习、远距离关系、时序知识图谱

专知

23+阅读 · 2018年4月24日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

靶向性调节性ODNR01减轻心肌缺血再灌注损伤及其机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

卫星导航系统广域差分技术体系研究

国家自然科学基金

0+阅读 · 2013年12月31日

LTE系统定位技术及其在无线资源指配中的应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

近、中红外波段含Sb DWELL结构激光器研究

国家自然科学基金

0+阅读 · 2012年12月31日

地理信息检索中语境的获取、推理及应用

国家自然科学基金

6+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

多模态分子层析成像技术的研究及其应用

国家自然科学基金

0+阅读 · 2008年12月31日

新型半导体激光器光反馈传感机理的系统研究及其应用于线宽展宽因数的测量

国家自然科学基金

1+阅读 · 2008年12月31日

基于双语文档反馈的跨语言信息检索研究

国家自然科学基金

0+阅读 · 2008年12月31日

Enhancing Multilingual Language Model with Massive Multilingual Knowledge Triples

Arxiv

0+阅读 · 2022年10月19日

Adapting Pre-trained Language Models to African Languages via Multilingual Adaptive Fine-Tuning

Arxiv

0+阅读 · 2022年10月18日

Joint Multilingual Knowledge Graph Completion and Alignment

Arxiv

0+阅读 · 2022年10月18日

Zero-Shot Learners for Natural Language Understanding via a Unified Multiple Choice Perspective

Arxiv

0+阅读 · 2022年10月18日

Synergy with Translation Artifacts for Training and Inference in Multilingual Tasks

Arxiv

0+阅读 · 2022年10月18日

HyperMiner: Topic Taxonomy Mining with Hyperbolic Embedding

Arxiv

0+阅读 · 2022年10月16日

Towards Building a Multilingual Sememe Knowledge Base: Predicting Sememes for BabelNet Synsets

Arxiv

15+阅读 · 2019年12月4日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

BERT for Joint Intent Classification and Slot Filling

Arxiv

13+阅读 · 2019年2月28日

VIP会员

文章信息

相关主题

神经语言模型

相关VIP内容

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

自然语言处理顶会NAACL2022最佳论文出炉！

自然语言处理顶会NAACL2022最佳论文出炉！

专知会员服务

43+阅读 · 2022年6月30日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【知识图谱嵌入补全综述论文】embedding models for knowledge base completion

【知识图谱嵌入补全综述论文】embedding models for knowledge base completion

专知会员服务

102+阅读 · 2020年4月25日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

ACL 2022 主会长文论文分类整理

ACL 2022 主会长文论文分类整理

RUC AI Box

4+阅读 · 2022年4月20日

论文周报 | 推荐系统领域最新研究进展

论文周报 | 推荐系统领域最新研究进展

机器学习与推荐算法

2+阅读 · 2022年4月11日

ACM TOMM Call for Papers

ACM TOMM Call for Papers

CCF多媒体专委会

2+阅读 · 2022年3月23日

【ICIG2021】Latest News & Announcements of the Workshop

【ICIG2021】Latest News & Announcements of the Workshop

中国图象图形学学会CSIG

0+阅读 · 2021年12月20日

会议交流 | IJCKG: International Joint Conference on Knowledge Graphs

会议交流 | IJCKG: International Joint Conference on Knowledge Graphs

开放知识图谱

0+阅读 · 2021年9月9日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文推荐】最新六篇知识图谱相关论文—全局关系嵌入、时序关系提取、对抗学习、远距离关系、时序知识图谱

【论文推荐】最新六篇知识图谱相关论文—全局关系嵌入、时序关系提取、对抗学习、远距离关系、时序知识图谱

专知

23+阅读 · 2018年4月24日

相关论文

Enhancing Multilingual Language Model with Massive Multilingual Knowledge Triples

Arxiv

0+阅读 · 2022年10月19日

Adapting Pre-trained Language Models to African Languages via Multilingual Adaptive Fine-Tuning

Arxiv

0+阅读 · 2022年10月18日

Joint Multilingual Knowledge Graph Completion and Alignment

Arxiv

0+阅读 · 2022年10月18日

Zero-Shot Learners for Natural Language Understanding via a Unified Multiple Choice Perspective

Arxiv

0+阅读 · 2022年10月18日

Synergy with Translation Artifacts for Training and Inference in Multilingual Tasks

Arxiv

0+阅读 · 2022年10月18日

HyperMiner: Topic Taxonomy Mining with Hyperbolic Embedding

Arxiv

0+阅读 · 2022年10月16日

Towards Building a Multilingual Sememe Knowledge Base: Predicting Sememes for BabelNet Synsets

Arxiv

15+阅读 · 2019年12月4日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

BERT for Joint Intent Classification and Slot Filling

Arxiv

13+阅读 · 2019年2月28日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

靶向性调节性ODNR01减轻心肌缺血再灌注损伤及其机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

卫星导航系统广域差分技术体系研究

国家自然科学基金

0+阅读 · 2013年12月31日

LTE系统定位技术及其在无线资源指配中的应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

近、中红外波段含Sb DWELL结构激光器研究

国家自然科学基金

0+阅读 · 2012年12月31日

地理信息检索中语境的获取、推理及应用

国家自然科学基金

6+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

多模态分子层析成像技术的研究及其应用

国家自然科学基金

0+阅读 · 2008年12月31日

新型半导体激光器光反馈传感机理的系统研究及其应用于线宽展宽因数的测量

国家自然科学基金

1+阅读 · 2008年12月31日

基于双语文档反馈的跨语言信息检索研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员