预训练跨语言语言模型(Pretrained Cross-Lingual Language Model)在自然语言推断、问答、序列标注等诸多任务上展现了强大的跨语言迁移能力。例如,仅用英语的问答训练数据来微调预训练跨语言语言模型,得到的模型就可以直接在多个语言上实现问答任务。以往的跨语言预训练任务更关注句子级别的对齐,隐式地鼓励跨语言对齐,而忽略了显示的词级别的细粒度的对齐。

在本文中,微软亚洲研究院的研究员们将词级别的跨语言对齐引入预训练,并提出了一个新的跨语言预训练任务:去噪声词对齐(Denoising word alignment),来训练 XLM-Align 模型。

在训练过程中,对翻译句对交替进行词对齐自标注和去噪声词对齐。词对齐自标注(Word alignment self-labeling)是指将输入的翻译句对的词对齐问题转化为最优传输问题,并在训练过程中在线得到输入句对的词对齐标注;去噪声词对齐则是指随机地将输入句对中的词进行掩盖,然后使用指针网络预测翻译句对原始的词对齐关系。

研究员们在 XTREME 多语言理解评价基准上进行了验证,包括序列标注、问答、句子分类等。实验使用“跨语言迁移”(Cross-lingual transfer)的实验设置——模型用英文的训练数据微调,但在多种语言的测试集上进行测试。如表13所示,XLM-Align 在7项任务上都超越了 XLM-R_base,且取得了最好的平均分数。

成为VIP会员查看完整内容
15

相关内容

专知会员服务
9+阅读 · 2021年7月28日
专知会员服务
23+阅读 · 2021年6月19日
专知会员服务
41+阅读 · 2021年6月6日
专知会员服务
20+阅读 · 2021年4月15日
【AAAI2021】预训练用户表示提升推荐
专知会员服务
43+阅读 · 2021年2月8日
专知会员服务
31+阅读 · 2020年9月2日
单语言表征如何迁移到多语言去?
AI科技评论
5+阅读 · 2019年11月21日
论文浅尝 | 利用问题生成提升知识图谱问答
开放知识图谱
20+阅读 · 2019年11月5日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
深度思考 | 从BERT看大规模数据的无监督利用
PaperWeekly
11+阅读 · 2019年2月18日
Arxiv
57+阅读 · 2021年5月3日
Arxiv
3+阅读 · 2018年8月27日
VIP会员
相关VIP内容
专知会员服务
9+阅读 · 2021年7月28日
专知会员服务
23+阅读 · 2021年6月19日
专知会员服务
41+阅读 · 2021年6月6日
专知会员服务
20+阅读 · 2021年4月15日
【AAAI2021】预训练用户表示提升推荐
专知会员服务
43+阅读 · 2021年2月8日
专知会员服务
31+阅读 · 2020年9月2日
相关资讯
单语言表征如何迁移到多语言去?
AI科技评论
5+阅读 · 2019年11月21日
论文浅尝 | 利用问题生成提升知识图谱问答
开放知识图谱
20+阅读 · 2019年11月5日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
深度思考 | 从BERT看大规模数据的无监督利用
PaperWeekly
11+阅读 · 2019年2月18日
微信扫码咨询专知VIP会员