This work presents methods for learning cross-lingual sentence representations using paired or unpaired bilingual texts. We hypothesize that the cross-lingual alignment strategy is transferable, and therefore a model trained to align only two languages can encode multilingually more aligned representations. And such transfer from bilingual alignment to multilingual alignment is a dual-pivot transfer from two pivot languages to other language pairs. To study this theory, we train an unsupervised model with unpaired sentences and another single-pair supervised model with bitexts, both based on the unsupervised language model XLM-R. The experiments evaluate the models as universal sentence encoders on the task of unsupervised bitext mining on two datasets, where the unsupervised model reaches the state of the art of unsupervised retrieval, and the alternative single-pair supervised model approaches the performance of multilingually supervised models. The results suggest that bilingual training techniques as proposed can be applied to get sentence representations with higher multilingual alignment.


翻译:这项工作展示了使用配对或非配对双语文本来学习跨语言句式的方法。 我们假设跨语言协调战略是可以转让的, 因此, 一个经过训练的模型只有两种语言可以对多语言表达法进行编码。 从双语调整到多语言调整, 这是一种从两种支流语言向其他语言对口的双重传输。 为了研究这一理论, 我们用未经监督的语句来培训一种不受监督的模式, 以及另一个由比特文本组成的单一语言监督的模式, 这两种模式都以未经监督的语言模式 XLM- R为基础。 实验评估了作为通用句子编码的模型, 用于在两套数据集上进行非监督的比特版挖掘, 在那里, 未监督的模式达到了非监督检索的艺术状态, 而替代的单一语言监督模式则采用多语言监督模式的绩效。 结果显示, 拟议的双语培训技术可以应用到在更高多语言调制的语种语言表达法下获得通用句式。

1
下载
关闭预览

相关内容

【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
72+阅读 · 2020年4月24日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
90+阅读 · 2019年10月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
ERNIE Tutorial(论文笔记 + 实践指南)
AINLP
30+阅读 · 2019年8月28日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
快手类推荐系统实践
机器学习算法与Python学习
17+阅读 · 2018年2月7日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关资讯
ERNIE Tutorial(论文笔记 + 实践指南)
AINLP
30+阅读 · 2019年8月28日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
快手类推荐系统实践
机器学习算法与Python学习
17+阅读 · 2018年2月7日
Top
微信扫码咨询专知VIP会员