Word alignment over parallel corpora has a wide variety of applications, including learning translation lexicons, cross-lingual transfer of language processing tools, and automatic evaluation or analysis of translation outputs. The great majority of past work on word alignment has worked by performing unsupervised learning on parallel texts. Recently, however, other work has demonstrated that pre-trained contextualized word embeddings derived from multilingually trained language models (LMs) prove an attractive alternative, achieving competitive results on the word alignment task even in the absence of explicit training on parallel data. In this paper, we examine methods to marry the two approaches: leveraging pre-trained LMs but fine-tuning them on parallel text with objectives designed to improve alignment quality, and proposing methods to effectively extract alignments from these fine-tuned models. We perform experiments on five language pairs and demonstrate that our model can consistently outperform previous state-of-the-art models of all varieties. In addition, we demonstrate that we are able to train multilingual word aligners that can obtain robust performance on different language pairs. Our aligner, AWESOME (Aligning Word Embedding Spaces of Multilingual Encoders), with pre-trained models is available at https://github.com/neulab/awesome-align


翻译:在平行的Corpora上,Word对齐有各种各样的应用,包括学习翻译词汇、跨语言语言语言传输语言处理工具以及自动评价或分析翻译结果。过去关于字对齐的工作绝大多数是通过对平行文本进行未经监督的学习而起作用的。然而,最近,其他工作表明,从多语种培训的语言模式(LMS)中产生的经过事先培训的背景化字嵌入证明是一个有吸引力的替代办法,即使在没有关于平行数据的明确培训的情况下,也能够在字对齐任务上取得竞争性结果。在本文中,我们研究将两种方法结合起来的方法:利用预先培训的LMS,但用旨在提高校准质量的目标对平行文本进行微调,提出从这些经过精细调整的模型中有效提取校准的方法。我们在五对语言进行实验,并表明我们的模型能够始终超越以往所有品种的状态和艺术模式。此外,我们证明,我们能够培训能够在不同语言配对上取得强性表现的多语言对齐词调调。我们的校准者,AWESOMME(将WO Embing Stapding Stapledding Staplening Stapleningspace-spaces of amles/ amles/ MAlogwebour)

0
下载
关闭预览

相关内容

预训练语言模型fine-tuning近期进展概述
专知会员服务
40+阅读 · 2021年4月9日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
49+阅读 · 2019年9月24日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
3+阅读 · 2018年8月27日
Phrase-Based & Neural Unsupervised Machine Translation
Arxiv
6+阅读 · 2018年2月26日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员