在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。

VIP内容

预训练跨语言语言模型(Pretrained Cross-Lingual Language Model)在自然语言推断、问答、序列标注等诸多任务上展现了强大的跨语言迁移能力。例如,仅用英语的问答训练数据来微调预训练跨语言语言模型,得到的模型就可以直接在多个语言上实现问答任务。以往的跨语言预训练任务更关注句子级别的对齐,隐式地鼓励跨语言对齐,而忽略了显示的词级别的细粒度的对齐。

在本文中,微软亚洲研究院的研究员们将词级别的跨语言对齐引入预训练,并提出了一个新的跨语言预训练任务:去噪声词对齐(Denoising word alignment),来训练 XLM-Align 模型。

在训练过程中,对翻译句对交替进行词对齐自标注和去噪声词对齐。词对齐自标注(Word alignment self-labeling)是指将输入的翻译句对的词对齐问题转化为最优传输问题,并在训练过程中在线得到输入句对的词对齐标注;去噪声词对齐则是指随机地将输入句对中的词进行掩盖,然后使用指针网络预测翻译句对原始的词对齐关系。

研究员们在 XTREME 多语言理解评价基准上进行了验证,包括序列标注、问答、句子分类等。实验使用“跨语言迁移”(Cross-lingual transfer)的实验设置——模型用英文的训练数据微调,但在多种语言的测试集上进行测试。如表13所示,XLM-Align 在7项任务上都超越了 XLM-R_base,且取得了最好的平均分数。

成为VIP会员查看完整内容
0
5

最新论文

Compared to monolingual models, cross-lingual models usually require a more expressive vocabulary to represent all languages adequately. We find that many languages are under-represented in recent cross-lingual language models due to the limited vocabulary capacity. To this end, we propose an algorithm VoCap to determine the desired vocabulary capacity of each language. However, increasing the vocabulary size significantly slows down the pre-training speed. In order to address the issues, we propose k-NN-based target sampling to accelerate the expensive softmax. Our experiments show that the multilingual vocabulary learned with VoCap benefits cross-lingual language model pre-training. Moreover, k-NN-based target sampling mitigates the side-effects of increasing the vocabulary size while achieving comparable performance and faster pre-training speed. The code and the pretrained multilingual vocabularies are available at https://github.com/bozheng-hit/VoCapXLM.

0
0
下载
预览
Top