EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用 - 专知VIP

会员服务 ·

3

EMNLP 2021 · 预训练模型 · 预训练语言模型 · 论文 ·

2022 年 1 月 5 日

EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

预训练跨语言模型（Pre-Trained Cross-Lingual Language Model）是通过在大规模多语言语料上进行预训练得到，其展现了在不同语言间优秀的迁移能力。这类模型通常由多语言词表以及 Transformer 编码器组成，可以将不同语言的文本编码进统一的表示空间。尽管大多数预训练单语模型和跨语言模型中使用的 Transformer 编码器结构几乎相同，但它们的词表有较大的区别。现有预训练单语模型的词表一般包含 30K 到 60K 子词单元，与此同时，XLM-R[1] 及 mT5[2] 等模型使用包含 250K 子词单元的多语言词表来表示上百种语言，虽然有些子词单元是跨语言共享的，但是每个语言分配的语言特定子词单元平均不超过 2.5K 个，用来表示一种语言依然是相对不足的。并且常用的多语言词表是通过 BPE 或 unigram 语言模型等算法在多语言语料上学习得到，这些算法在词表构建过程中更倾向于选择在不同语言之间共享的子词单元，如使用拉丁字母和西里尔字母的语言[3]，而选中语言特定子词单元的概率较低。对于这些算法而言，很难确定是否已经为每种语言分配了足够的词表大小，使得每种语言都能被充分表示。此外，相比于单语模型，跨语言模型中的大词表不仅会降低预训练速度，同时也会导致模型参数量增加。

为了解决上述问题，本文首先提出 VoCap 词表构建算法得到一个更大的多语言词表，在构建过程中综合考虑每种语言的语言特定词汇能力及预训练语料大小为每种语言分配合适的词表大小。对于进一步加大跨语言模型中的多语言词表所带来的预训练速度降低的问题，本文提出基于 k 近邻的目标采样方法，通过近似估计训练目标中的 softmax 函数来提升跨语言模型预训练效率。XTREME benchmark[4] 上实验结果表明，基于 VoCap 方法构建的多语言词表要优于之前的词表，基于 k 近邻的目标采样方法在达成可比性能的同时，大幅度提升了跨语言模型的预训练效率。

成为VIP会员查看完整内容

21

相关内容

EMNLP 2021

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知会员服务

27+阅读 · 2022年1月13日

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020

【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020

专知会员服务

43+阅读 · 2020年11月22日

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

专知会员服务

23+阅读 · 2020年11月14日

【EMNLP 2020 】基于反事实推理的开放域生成式对话

专知会员服务

27+阅读 · 2020年11月5日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【EMNLP2019教程】图神经网络GNN的自然语言处理，附315页PPT及作者博士论文下载

【EMNLP2019教程】图神经网络GNN的自然语言处理，附315页PPT及作者博士论文下载

专知会员服务

77+阅读 · 2020年1月27日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

专知会员服务

72+阅读 · 2019年11月3日

基于自回归填空的通用语言模型预训练 | 论文荐读

基于自回归填空的通用语言模型预训练 | 论文荐读

学术头条

5+阅读 · 2022年3月14日

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

开放知识图谱

0+阅读 · 2022年2月26日

赛尔原创@EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

赛尔原创@EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

哈工大SCIR

1+阅读 · 2021年12月31日

EMNLP 2021 最新综述：语言模型中的关系性知识

EMNLP 2021 最新综述：语言模型中的关系性知识

PaperWeekly

0+阅读 · 2021年12月3日

EMNLP 2021 | 以对比损失为微调目标，UMass提出更强大的短语表示模型

EMNLP 2021 | 以对比损失为微调目标，UMass提出更强大的短语表示模型

PaperWeekly

0+阅读 · 2021年11月15日

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

哈工大SCIR

0+阅读 · 2021年6月22日

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

哈工大SCIR

10+阅读 · 2019年11月18日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

站在BERT肩膀上的NLP新秀们：XLMs、MASS和UNILM

站在BERT肩膀上的NLP新秀们：XLMs、MASS和UNILM

PaperWeekly

16+阅读 · 2019年6月6日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

面向机器翻译的多词表达语义分析及应用研究

国家自然科学基金

1+阅读 · 2014年12月31日

向量组合学习框架下基于依存混合树的中文语义解析研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向状态估计的无线可充电物联网能量优化研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于主干成分的句法统计机器翻译模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多语用户模型的个性化跨语言信息检索研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于Wiki资源的中英文跨语言本体知识库构建

国家自然科学基金

1+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

中文语义依存分析资源构建及分析技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于条件随机域切分模型的基因组词语组合挖掘研究

国家自然科学基金

0+阅读 · 2011年12月31日

Mention Memory: incorporating textual knowledge into Transformers through entity mention attention

Arxiv

0+阅读 · 2022年4月19日

Graph Neural Network-based Android Malware Classification with Jumping Knowledge

Arxiv

0+阅读 · 2022年4月17日

Multi-Label Text Classification using Attention-based Graph Neural Network

Arxiv

46+阅读 · 2020年3月22日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks

Arxiv

17+阅读 · 2018年6月5日

Aspect Based Sentiment Analysis with Gated Convolutional Networks

Arxiv

12+阅读 · 2018年5月18日

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Arxiv

16+阅读 · 2018年1月31日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

VIP会员

相关主题

预训练模型

预训练语言模型

相关VIP内容

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知会员服务

27+阅读 · 2022年1月13日

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020

【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020

专知会员服务

43+阅读 · 2020年11月22日

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

专知会员服务

23+阅读 · 2020年11月14日

【EMNLP 2020 】基于反事实推理的开放域生成式对话

专知会员服务

27+阅读 · 2020年11月5日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【EMNLP2019教程】图神经网络GNN的自然语言处理，附315页PPT及作者博士论文下载

【EMNLP2019教程】图神经网络GNN的自然语言处理，附315页PPT及作者博士论文下载

专知会员服务

77+阅读 · 2020年1月27日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

专知会员服务

72+阅读 · 2019年11月3日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

基于自回归填空的通用语言模型预训练 | 论文荐读

基于自回归填空的通用语言模型预训练 | 论文荐读

学术头条

5+阅读 · 2022年3月14日

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

开放知识图谱

0+阅读 · 2022年2月26日

赛尔原创@EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

赛尔原创@EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

哈工大SCIR

1+阅读 · 2021年12月31日

EMNLP 2021 最新综述：语言模型中的关系性知识

EMNLP 2021 最新综述：语言模型中的关系性知识

PaperWeekly

0+阅读 · 2021年12月3日

EMNLP 2021 | 以对比损失为微调目标，UMass提出更强大的短语表示模型

EMNLP 2021 | 以对比损失为微调目标，UMass提出更强大的短语表示模型

PaperWeekly

0+阅读 · 2021年11月15日

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

哈工大SCIR

0+阅读 · 2021年6月22日

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

哈工大SCIR

10+阅读 · 2019年11月18日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

站在BERT肩膀上的NLP新秀们：XLMs、MASS和UNILM

站在BERT肩膀上的NLP新秀们：XLMs、MASS和UNILM

PaperWeekly

16+阅读 · 2019年6月6日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

相关基金

面向机器翻译的多词表达语义分析及应用研究

国家自然科学基金

1+阅读 · 2014年12月31日

向量组合学习框架下基于依存混合树的中文语义解析研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向状态估计的无线可充电物联网能量优化研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于主干成分的句法统计机器翻译模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多语用户模型的个性化跨语言信息检索研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于Wiki资源的中英文跨语言本体知识库构建

国家自然科学基金

1+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

中文语义依存分析资源构建及分析技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于条件随机域切分模型的基因组词语组合挖掘研究

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Mention Memory: incorporating textual knowledge into Transformers through entity mention attention

Arxiv

0+阅读 · 2022年4月19日

Graph Neural Network-based Android Malware Classification with Jumping Knowledge

Arxiv

0+阅读 · 2022年4月17日

Multi-Label Text Classification using Attention-based Graph Neural Network

Arxiv

46+阅读 · 2020年3月22日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks

Arxiv

17+阅读 · 2018年6月5日

Aspect Based Sentiment Analysis with Gated Convolutional Networks

Arxiv

12+阅读 · 2018年5月18日

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Arxiv

16+阅读 · 2018年1月31日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

微信扫码咨询专知VIP会员