XLM-V: 克服多种语言蒙面语言模式词汇瓶颈 (XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models) - 专知论文

会员服务 ·

0

词表 · 语言模型化 · MoDELS · 掩码语言模型化 · 词元分析器 ·

2023 年 1 月 25 日

XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models

翻译：XLM-V: 克服多种语言蒙面语言模式词汇瓶颈

Davis Liang,Hila Gonen,Yuning Mao,Rui Hou,Naman Goyal,Marjan Ghazvininejad,Luke Zettlemoyer,Madian Khabsa

Large multilingual language models typically rely on a single vocabulary shared across 100+ languages. As these models have increased in parameter count and depth, vocabulary size has remained largely unchanged. This vocabulary bottleneck limits the representational capabilities of multilingual models like XLM-R. In this paper, we introduce a new approach for scaling to very large multilingual vocabularies by de-emphasizing token sharing between languages with little lexical overlap and assigning vocabulary capacity to achieve sufficient coverage for each individual language. Tokenizations using our vocabulary are typically more semantically meaningful and shorter compared to XLM-R. Leveraging this improved vocabulary, we train XLM-V, a multilingual language model with a one million token vocabulary. XLM-V outperforms XLM-R on every task we tested on ranging from natural language inference (XNLI), question answering (MLQA, XQuAD, TyDiQA), and named entity recognition (WikiAnn) to low-resource tasks (Americas NLI, MasakhaNER).

翻译：大型多语种模式通常依赖100多种语言共享的单一词汇。随着这些模式在参数计数和深度方面增加,词汇大小基本保持不变。这一词汇瓶颈限制了XLM-R等多语种模式的代表性能力。在本文中,我们引入了一种新的方法,通过不强调语言之间在词汇上很少重叠的象征性共享和分配词汇能力来实现对每种语言的充分覆盖,将语言模式推广到非常大的多语种词汇中。与 XLM-R相比,使用我们的词汇的术语通常更具有语义意义,更短。利用这一改进的词汇,我们培训了XLM-V,这是一个多语言模式,有100万个象征性词汇。 XLM-V 超越了 XLM-R 的功能,我们测试了从自然语言推断(XNLI)、问题回答(MLQA、XQUA、TQA、TYDiQA)到名为实体识别(Wikiann)到低资源任务(Americas NLI、MasakhAN)。

0

相关内容

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

108+阅读 · 2020年5月1日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

BERT到底如何work的？A Primer in BERTology: What we know about how BERT works

BERT到底如何work的？A Primer in BERTology: What we know about how BERT works

专知会员服务

50+阅读 · 2020年2月28日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

专知会员服务

30+阅读 · 2019年11月22日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

ACM TOMM Call for Papers

ACM TOMM Call for Papers

CCF多媒体专委会

2+阅读 · 2022年3月23日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

天然活性分子Isatin抗神经母细胞瘤转移的作用及分子机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

HOTAIR与DNMT1相互作用在皮肤细胞衰老中的机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

PZT铁电栅MoS2场效应晶体管的电输运特性研究

国家自然科学基金

0+阅读 · 2013年12月31日

可压缩Navier-Stokes方程和Boltzmann方程解的渐近行为

国家自然科学基金

0+阅读 · 2013年12月31日

长链非编码RNA-HOTAIR的蛋白调控网络的构建及功能研究

国家自然科学基金

0+阅读 · 2012年12月31日

可压缩Navier-Stokes方程全局光滑解的适定性问题

国家自然科学基金

0+阅读 · 2012年12月31日

响应性柔性聚合物Janus纳米片制备及性质研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀土离子f-d跃迁的FED新发光材料的设计、合成和光谱性质研究

国家自然科学基金

0+阅读 · 2011年12月31日

Elmo1-Nck 的相互作用在肝细胞癌侵袭和转移中的作用研究

国家自然科学基金

0+阅读 · 2011年12月31日

不可压Navier-Stokes方程的适定性与正则性研究

国家自然科学基金

0+阅读 · 2009年12月31日

Neural Architecture Search for Effective Teacher-Student Knowledge Transfer in Language Models

Arxiv

0+阅读 · 2023年3月16日

Language Model Decoding as Likelihood-Utility Alignment

Arxiv

0+阅读 · 2023年3月16日

LUNA: Language Understanding with Number Augmentations on Transformers via Number Plugins and Pre-training

LUNA: Language Understanding with Number Augmentations on Transformers via Number Plugins and Pre-training

Arxiv

0+阅读 · 2023年3月16日

Perceptual Grouping in Contrastive Vision-Language Models

Arxiv

0+阅读 · 2023年3月16日

Deep Incubation: Training Large Models by Divide-and-Conquering

Arxiv

0+阅读 · 2023年3月16日

MEDBERT.de: A Comprehensive German BERT Model for the Medical Domain

Arxiv

0+阅读 · 2023年3月14日

Improving Data Transfer Efficiency for AIs in the DareFightingICE using gRPC

Arxiv

0+阅读 · 2023年3月11日

A Survey of Knowledge-Enhanced Pre-trained Language Models

Arxiv

18+阅读 · 2022年11月17日

K-AID: Enhancing Pre-trained Language Models with Domain Knowledge for Question Answering

Arxiv

15+阅读 · 2021年9月22日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

VIP会员

文章信息

相关主题

语言模型化

掩码语言模型化

词元分析器

相关VIP内容

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

108+阅读 · 2020年5月1日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

BERT到底如何work的？A Primer in BERTology: What we know about how BERT works

BERT到底如何work的？A Primer in BERTology: What we know about how BERT works

专知会员服务

50+阅读 · 2020年2月28日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

专知会员服务

30+阅读 · 2019年11月22日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《代码、指挥与冲突：描绘军事人工智能的未来》报告

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

美国启动“自有军事人工智能计划”：采用谷歌Gemini以推动全军人工智能应用

《创新与适应性作为军事成功的关键因素：来自俄乌战争的战略洞见》报告

相关资讯

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

ACM TOMM Call for Papers

ACM TOMM Call for Papers

CCF多媒体专委会

2+阅读 · 2022年3月23日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

相关论文

Neural Architecture Search for Effective Teacher-Student Knowledge Transfer in Language Models

Arxiv

0+阅读 · 2023年3月16日

Language Model Decoding as Likelihood-Utility Alignment

Arxiv

0+阅读 · 2023年3月16日

LUNA: Language Understanding with Number Augmentations on Transformers via Number Plugins and Pre-training

LUNA: Language Understanding with Number Augmentations on Transformers via Number Plugins and Pre-training

Arxiv

0+阅读 · 2023年3月16日

Perceptual Grouping in Contrastive Vision-Language Models

Arxiv

0+阅读 · 2023年3月16日

Deep Incubation: Training Large Models by Divide-and-Conquering

Arxiv

0+阅读 · 2023年3月16日

MEDBERT.de: A Comprehensive German BERT Model for the Medical Domain

Arxiv

0+阅读 · 2023年3月14日

Improving Data Transfer Efficiency for AIs in the DareFightingICE using gRPC

Arxiv

0+阅读 · 2023年3月11日

A Survey of Knowledge-Enhanced Pre-trained Language Models

Arxiv

18+阅读 · 2022年11月17日

K-AID: Enhancing Pre-trained Language Models with Domain Knowledge for Question Answering

Arxiv

15+阅读 · 2021年9月22日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

相关基金

天然活性分子Isatin抗神经母细胞瘤转移的作用及分子机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

HOTAIR与DNMT1相互作用在皮肤细胞衰老中的机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

PZT铁电栅MoS2场效应晶体管的电输运特性研究

国家自然科学基金

0+阅读 · 2013年12月31日

可压缩Navier-Stokes方程和Boltzmann方程解的渐近行为

国家自然科学基金

0+阅读 · 2013年12月31日

长链非编码RNA-HOTAIR的蛋白调控网络的构建及功能研究

国家自然科学基金

0+阅读 · 2012年12月31日

可压缩Navier-Stokes方程全局光滑解的适定性问题

国家自然科学基金

0+阅读 · 2012年12月31日

响应性柔性聚合物Janus纳米片制备及性质研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀土离子f-d跃迁的FED新发光材料的设计、合成和光谱性质研究

国家自然科学基金

0+阅读 · 2011年12月31日

Elmo1-Nck 的相互作用在肝细胞癌侵袭和转移中的作用研究

国家自然科学基金

0+阅读 · 2011年12月31日

不可压Navier-Stokes方程的适定性与正则性研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员