多语言双向无监督翻译通过多语言微调和回译 (Multilingual Bidirectional Unsupervised Translation Through Multilingual Finetuning and Back-Translation) - 专知论文

会员服务 ·

0

单语数据 · 无监督 · NMT · 微调 · 监督 ·

2023 年 4 月 3 日

Multilingual Bidirectional Unsupervised Translation Through Multilingual Finetuning and Back-Translation

翻译：多语言双向无监督翻译通过多语言微调和回译

Bryan Li,Mohammad Sadegh Rasooli,Ajay Patel,Chris Callison-Burch

from arxiv, LoResMT @ EACL 2023

We propose a two-stage approach for training a single NMT model to translate unseen languages both to and from English. For the first stage, we initialize an encoder-decoder model to pretrained XLM-R and RoBERTa weights, then perform multilingual fine-tuning on parallel data in 40 languages to English. We find this model can generalize to zero-shot translations on unseen languages. For the second stage, we leverage this generalization ability to generate synthetic parallel data from monolingual datasets, then bidirectionally train with successive rounds of back-translation. Our approach, which we EcXTra (English-centric Crosslingual (X) Transfer), is conceptually simple, only using a standard cross-entropy objective throughout. It is also data-driven, sequentially leveraging auxiliary parallel data and monolingual data. We evaluate unsupervised NMT results for 7 low-resource languages, and find that each round of back-translation training further refines bidirectional performance. Our final single EcXTra-trained model achieves competitive translation performance in all translation directions, notably establishing a new state-of-the-art for English-to-Kazakh (22.9 > 10.4 BLEU). Our code is available at https://github.com/manestay/EcXTra .

翻译：我们提出了一种两阶段方法，用于训练单个 NMT 模型以将未见过的语言翻译成英语并从英语翻译。对于第一阶段，我们将编码器-解码器模型初始化为预训练的 XLM-R 和 RoBERTa 权重，然后在 40 种语言到英语的平行数据上进行多语言微调。我们发现这个模型可以推广到未见过的语言的零-shot 翻译。对于第二阶段，我们利用这种推广能力从单语数据集生成合成的平行数据，然后进行回译的连续双向训练。我们的方法，我们将其称为 EcXTra（English-centric Crosslingual (X) Transfer），在概念上非常简单，只在整个过程中使用标准的交叉熵目标。它也是数据驱动的，顺序地利用辅助平行数据和单语数据。我们评估了 7 种低资源语言的无监督 NMT 结果，并发现每轮回译训练进一步改进了双向性能。我们最终的单个 EcXTra 训练模型在所有翻译方向上都实现了有竞争力的翻译性能，显著地建立了英语到哈萨克语（22.9 > 10.4 BLEU）的新的最好结果。我们的代码可在 https://github.com/manestay/EcXTra 找到。

0

相关内容

单语数据

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知会员服务

32+阅读 · 2020年3月30日

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

专知会员服务

24+阅读 · 2020年3月28日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

专知会员服务

16+阅读 · 2019年11月4日

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

PaperWeekly

0+阅读 · 2022年7月6日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

ACL 2019 | 多语言BERT的语言表征探索

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

NLP - 基于 BERT 的中文命名实体识别（NER)

NLP - 基于 BERT 的中文命名实体识别（NER)

AINLP

466+阅读 · 2019年2月10日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

NLP预训练模型大集合！

NLP预训练模型大集合！

全球人工智能

31+阅读 · 2018年12月29日

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

谷歌开发者

16+阅读 · 2018年11月6日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

有理映射的参数空间

国家自然科学基金

0+阅读 · 2013年12月31日

基于Wiki资源的中英文跨语言本体知识库构建

国家自然科学基金

1+阅读 · 2012年12月31日

杜仲种子α-亚麻酸合成及高效积累的分子机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于语言理解的机器翻译译文自动评价方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

超声介导靶向微泡携带Foxp3 siRNA特异性抑制Treg细胞增强抗肿瘤免疫研究

国家自然科学基金

0+阅读 · 2011年12月31日

碳纳米管/泡沫炭复合材料制备、结构及增强机理

国家自然科学基金

0+阅读 · 2011年12月31日

基于循证医学本体论的临床元数据语言研究

国家自然科学基金

1+阅读 · 2009年12月31日

纳米氢氧化镁晶体微观结构及分子模拟研究

国家自然科学基金

0+阅读 · 2009年12月31日

Masked Path Modeling for Vision-and-Language Navigation

Arxiv

0+阅读 · 2023年5月23日

Active Learning Principles for In-Context Learning with Large Language Models

Arxiv

0+阅读 · 2023年5月23日

In-context Example Selection for Machine Translation Using Multiple Features

Arxiv

0+阅读 · 2023年5月23日

Cross-modality Data Augmentation for End-to-End Sign Language Translation

Arxiv

0+阅读 · 2023年5月22日

Gloss-Free End-to-End Sign Language Translation

Arxiv

0+阅读 · 2023年5月22日

Laughter Synthesis using Pseudo Phonetic Tokens with a Large-scale In-the-wild Laughter Corpus

Arxiv

0+阅读 · 2023年5月21日

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning

Arxiv

0+阅读 · 2023年5月19日

Viewing Knowledge Transfer in Multilingual Machine Translation Through a Representational Lens

Arxiv

0+阅读 · 2023年5月19日

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Arxiv

12+阅读 · 2019年9月26日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

VIP会员

文章信息

相关主题

相关VIP内容

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知会员服务

32+阅读 · 2020年3月30日

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

专知会员服务

24+阅读 · 2020年3月28日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

专知会员服务

16+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

PaperWeekly

0+阅读 · 2022年7月6日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

ACL 2019 | 多语言BERT的语言表征探索

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

NLP - 基于 BERT 的中文命名实体识别（NER)

NLP - 基于 BERT 的中文命名实体识别（NER)

AINLP

466+阅读 · 2019年2月10日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

NLP预训练模型大集合！

NLP预训练模型大集合！

全球人工智能

31+阅读 · 2018年12月29日

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

谷歌开发者

16+阅读 · 2018年11月6日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

相关论文

Masked Path Modeling for Vision-and-Language Navigation

Arxiv

0+阅读 · 2023年5月23日

Active Learning Principles for In-Context Learning with Large Language Models

Arxiv

0+阅读 · 2023年5月23日

In-context Example Selection for Machine Translation Using Multiple Features

Arxiv

0+阅读 · 2023年5月23日

Cross-modality Data Augmentation for End-to-End Sign Language Translation

Arxiv

0+阅读 · 2023年5月22日

Gloss-Free End-to-End Sign Language Translation

Arxiv

0+阅读 · 2023年5月22日

Laughter Synthesis using Pseudo Phonetic Tokens with a Large-scale In-the-wild Laughter Corpus

Arxiv

0+阅读 · 2023年5月21日

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning

Arxiv

0+阅读 · 2023年5月19日

Viewing Knowledge Transfer in Multilingual Machine Translation Through a Representational Lens

Arxiv

0+阅读 · 2023年5月19日

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Arxiv

12+阅读 · 2019年9月26日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

相关基金

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

有理映射的参数空间

国家自然科学基金

0+阅读 · 2013年12月31日

基于Wiki资源的中英文跨语言本体知识库构建

国家自然科学基金

1+阅读 · 2012年12月31日

杜仲种子α-亚麻酸合成及高效积累的分子机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于语言理解的机器翻译译文自动评价方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

超声介导靶向微泡携带Foxp3 siRNA特异性抑制Treg细胞增强抗肿瘤免疫研究

国家自然科学基金

0+阅读 · 2011年12月31日

碳纳米管/泡沫炭复合材料制备、结构及增强机理

国家自然科学基金

0+阅读 · 2011年12月31日

基于循证医学本体论的临床元数据语言研究

国家自然科学基金

1+阅读 · 2009年12月31日

纳米氢氧化镁晶体微观结构及分子模拟研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员