The cross-lingual language models are typically pretrained with masked language modeling on multilingual text or parallel sentences. In this paper, we introduce denoising word alignment as a new cross-lingual pre-training task. Specifically, the model first self-labels word alignments for parallel sentences. Then we randomly mask tokens in a bitext pair. Given a masked token, the model uses a pointer network to predict the aligned token in the other language. We alternately perform the above two steps in an expectation-maximization manner. Experimental results show that our method improves cross-lingual transferability on various datasets, especially on the token-level tasks, such as question answering, and structured prediction. Moreover, the model can serve as a pretrained word aligner, which achieves reasonably low error rates on the alignment benchmarks. The code and pretrained parameters are available at https://github.com/CZWin32768/XLM-Align.


翻译:跨语言语言模式通常先于多语种文本或平行句子的蒙面语言模型。 在本文中, 我们作为新的跨语言培训前任务引入了取消字对齐的词对齐。 具体地说, 模式是平行句子的首个自标词对齐。 然后我们随机用比特配对来遮盖符号。 有了遮面符号, 模型使用指针网络来预测其他语言的对齐符号。 我们以期望最大化的方式执行上述两个步骤。 实验结果显示, 我们的方法提高了不同数据集的跨语言传输能力, 特别是象征性任务( 如答题) 和结构化预测。 此外, 模式可以作为预先培训的单词对齐器, 从而在校准基准上实现相当低的错误率。 代码和预先培训参数可以在 https://github. com/ CZWin3278/XLM- Align上查阅 。

3
下载
关闭预览

相关内容

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Arxiv
4+阅读 · 2018年9月6日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关VIP内容
相关资讯
Top
微信扫码咨询专知VIP会员