谷歌提出多语言BERT模型：可为109种语言生成与语言无关的跨语言句子嵌入

会员服务 ·

谷歌提出多语言BERT模型：可为109种语言生成与语言无关的跨语言句子嵌入

2020 年 8 月 20 日 新智元

新智元报道

来源：Google

编辑：雅新

【新智元导读】谷歌研究人员提出了一种LaBSE的多语言BERT嵌入模型。该模型可为109种语言生成与语言无关的跨语言句子嵌入，同时在跨语言文本检索性能优于LASER。

近日，谷歌AI研究人员提出了一种称为LaBSE的多语言BERT嵌入模型，该模型可为109种语言生成与语言无关的跨语言句子嵌入。

这一论文题目为「Language-agnostic BERT Sentence Embedding」，目前已在arxiv上发表。

论文地址： https://arxiv.org/pdf/2007.01852.pdf

研究背景

多语言嵌入模型是一种功能强大的工具，可将不同语言的文本编码到共享的嵌入空间中，从而使其能够应用在一系列下游任务，比如文本分类、文本聚类等，同时它还利用语义信息来理解语言。

用于生成此类嵌入的现有方法如LASER或m~USE依赖并行数据，将句子从一种语言直接映射到另一种语言，鼓励句子嵌入之间的一致性。

尽管这些现有的多语言嵌入方法可在多种语言中有良好的整体性能，但与专用双语模型相比，它们在高资源语言上通常表现不佳。

此外，由于有限的模型容量、低资源语言的训练数据质量通常较差，可能难以扩展多语言模型以支持更多语言，同时保持良好的性能。

多语言嵌入空间的示例

改善语言模型的最新研究包括开发掩码语言模型（MLM）预训练，如BERT，ALBER和RoBERTa使用的预训练。由于这种方法仅需要一种语言的文字，因此在多种语言和各种自然语言处理任务中均取得了非凡的成就。

另外，MLM预训练已经扩展到多种语言，通过将MLM预训练修改为包括级联翻译对，也称作翻译语言模型（TLM），或者仅引入来自多种语言的预训练数据。

但是，尽管在进行MLM和TLM训练时学习到的内部模型表示形式对下游任务进行微调很有帮助，但它们不能直接产生句子嵌入，而这对于翻译任务至关重要。

在这样情况下，研究人员提出了一种称为LaBSE的多语言BERT嵌入模型。

该模型使用MLM和TLM预训练在170亿个单语句子和60亿个双语句子对上进行了训练，即使在训练期间没有可用数据的低资源语言上也有效。

此外，该模型在多个并行文本检索任务上有表现出良好的性能。

收集109种支持语言的训练数据

LaBSE模型可在单个模型中提供了对109种语言的扩展支持

在先前的工作中，研究者曾建议使用翻译排名任务来学习多语言句子嵌入空间。该方法通过给定源语言中的句子，对模型进行排序，从而对目标语言中的句子的正确翻译进行排名。

翻译排名任务通过使用带有共享变压器的双编码器体系结构进行训练的，让双语模型在多项并行文本检索任务表现出最先进的性能。

但是，由于模型能力、词汇量覆盖范围、训练数据质量等方面的限制，将双语模型扩展为支持多种语言（在研究者的测试案例中为16种语言）时，模型表现并不优。

翻译排名任务

对于LaBSE，研究人员在类似BERT的体系结构上利用了语言模型预训练的最新成果，包括MLM和TLM，并在翻译排名任务上进行了微调。

使用MLM和TLM在109种语言上预先训练的500k令牌词汇表的12层转换器，用于增加模型和词汇表覆盖范围。

最终，LaBSE模型在单个模型中提供了对109种语言的扩展支持。

双编码器体系结构

LaBSE模型在跨语言文本检索的性能优于LASER

研究者使用Tatoeba语料库评估提出的模型，Tatoeba语料库是一个数据集，包含多达112个语言的1000个英语对齐的句子对。

对于数据集中30种以上的语言，该模型没有训练数据。该模型的任务是查找给定句子的最近相邻的翻译，并使用余弦距离进行计算。

为了了解训练数据分布的开头或结尾处的语言模型的性能，研究人员将语言集分为几组，并计算每组语言的平均准确性。

下表列出了与每种语言组的m〜USE、LASER以及LaBSE模型实现的平均准确性对比结果。

可以看出，所有模型在涵盖大多数主要语言的14语言组中均表现出色。当涵盖的语言增多，LASER和LaBSE的平均准确度都会下降。

但是，随着语言数量的增加，LaBSE模型的准确性降低的要小得多，明显优于LASER ，尤其是当包括112种语言的全部分发时，LaBSE准确性为83.7％，LASER为65.5％。

此外，LaBSE还可用于从Web规模数据中挖掘并行文本。

谷歌研究人员已经通过tfhub向社区发布了预先训练的模型，其中包括可以按原样使用或可以使用特定于域的数据进行微调的模块。

链接：https://tfhub.dev/google/LaBSE/1

参考链接：

https://ai.googleblog.com/

登录查看更多

相关内容

句子嵌入

关注 0

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

专知会员服务

74+阅读 · 2020年9月25日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

【神经语言生成：形式化，方法与评价，70页pdf】

专知会员服务

37+阅读 · 2020年8月8日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

专知会员服务

49+阅读 · 2019年11月15日

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

专知会员服务

26+阅读 · 2019年11月11日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

谷歌NLP新方法：无需翻译，质量优于无监督翻译模型

新智元

7+阅读 · 2019年6月24日

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

雷锋网

5+阅读 · 2019年6月20日

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

AI科技评论

6+阅读 · 2019年6月20日

跨语言版BERT：Facebook提出跨语言预训练模型XLM

机器之心

4+阅读 · 2019年2月6日

Facebook开源增强版LASER库，包含93种语言工具包

机器之心

5+阅读 · 2019年1月23日

前沿 | 通用句子语义编码器，谷歌在语义文本相似性上的探索

机器之心

8+阅读 · 2018年5月26日

干货 | 揭开多语言词嵌入模型的神秘面纱

AI科技评论

5+阅读 · 2018年4月3日

用于神经网络机器翻译的全并行文本生成

专知

5+阅读 · 2018年1月3日

Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

Arxiv

10+阅读 · 2019年9月15日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

Fine-tune BERT for Extractive Summarization

Arxiv

3+阅读 · 2019年9月5日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

Unsupervised Multilingual Word Embeddings

Arxiv

4+阅读 · 2018年9月6日

Learned in Translation: Contextualized Word Vectors

Arxiv

6+阅读 · 2018年6月20日

ParaNMT-50M: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations

Arxiv

3+阅读 · 2018年4月20日

KBGAN: Adversarial Learning for Knowledge Graph Embeddings

Arxiv

6+阅读 · 2018年4月16日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

Topic Compositional Neural Language Model

Arxiv

5+阅读 · 2018年2月26日

VIP会员