The ability of Transformers to perform with precision a variety of tasks such as question answering, Natural Language Inference (NLI) or summarising, have enable them to be ranked as one of the best paradigms to address this kind of tasks at present. NLI is one of the best scenarios to test these architectures, due to the knowledge required to understand complex sentences and established a relation between a hypothesis and a premise. Nevertheless, these models suffer from incapacity to generalise to other domains or difficulties to face multilingual scenarios. The leading pathway in the literature to address these issues involve designing and training extremely large architectures, which leads to unpredictable behaviours and to establish barriers which impede broad access and fine tuning. In this paper, we propose a new architecture, siamese multilingual transformer (SML), to efficiently align multilingual embeddings for Natural Language Inference. SML leverages siamese pre-trained multi-lingual transformers with frozen weights where the two input sentences attend each other to later be combined through a matrix alignment method. The experimental results carried out in this paper evidence that SML allows to reduce drastically the number of trainable parameters while still achieving state-of-the-art performance.


翻译:变换者有能力精确地完成各种问题,例如回答问题、自然语言推断(NLI)或总结等,从而使他们能够被列为目前处理这类任务的最佳范例之一。新变换者是测试这些结构的最佳方案之一,因为了解了理解复杂句子所需的知识,并在假设和前提之间建立起了一种关系。然而,这些模型无法推广到其他领域或面对多语种情景的困难。文献中解决这些问题的主要途径是设计和培训极其庞大的建筑,导致无法预测的行为,并设置障碍,妨碍广泛访问和微调。我们在本文件中提议了一个新的结构,即Siames多语言变换器(SML),以有效地将多种语言嵌入自然语言变异器与语言变异器结合起来。SLML利用了经过预先训练的、具有冻结重量的两种输入的变异器,随后通过矩阵调整方法将其组合在一起。本文中的实验结果证明,SML允许大幅削减可训练参数的数量,同时仍然实现状态性能。

1
下载
关闭预览

相关内容

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020
专知会员服务
42+阅读 · 2020年11月22日
【IJCAI2020南大】上下文在神经机器翻译中的充分利用
专知会员服务
15+阅读 · 2020年8月17日
【论文笔记】NLP 预训练模型综述
深度学习自然语言处理
8+阅读 · 2020年5月14日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
0+阅读 · 2021年5月12日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
12+阅读 · 2019年2月28日
Arxiv
3+阅读 · 2018年8月27日
VIP会员
相关VIP内容
相关资讯
【论文笔记】NLP 预训练模型综述
深度学习自然语言处理
8+阅读 · 2020年5月14日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员