预训练跨语言语言模型(Pretrained Cross-Lingual Language Model)在自然语言推断、问答、序列标注等诸多任务上展现了强大的跨语言迁移能力。例如,仅用英语的问答训练数据来微调预训练跨语言语言模型,得到的模型就可以直接在多个语言上实现问答任务。以往的跨语言预训练任务更关注句子级别的对齐,隐式地鼓励跨语言对齐,而忽略了显示的词级别的细粒度的对齐。
在本文中,微软亚洲研究院的研究员们将词级别的跨语言对齐引入预训练,并提出了一个新的跨语言预训练任务:去噪声词对齐(Denoising word alignment),来训练 XLM-Align 模型。
在训练过程中,对翻译句对交替进行词对齐自标注和去噪声词对齐。词对齐自标注(Word alignment self-labeling)是指将输入的翻译句对的词对齐问题转化为最优传输问题,并在训练过程中在线得到输入句对的词对齐标注;去噪声词对齐则是指随机地将输入句对中的词进行掩盖,然后使用指针网络预测翻译句对原始的词对齐关系。
研究员们在 XTREME 多语言理解评价基准上进行了验证,包括序列标注、问答、句子分类等。实验使用“跨语言迁移”(Cross-lingual transfer)的实验设置——模型用英文的训练数据微调,但在多种语言的测试集上进行测试。如表13所示,XLM-Align 在7项任务上都超越了 XLM-R_base,且取得了最好的平均分数。