Pretrained Masked Language Models (MLMs) have revolutionised NLP in recent years. However, previous work has indicated that off-the-shelf MLMs are not effective as universal lexical or sentence encoders without further task-specific fine-tuning on NLI, sentence similarity, or paraphrasing tasks using annotated task data. In this work, we demonstrate that it is possible to turn MLMs into effective universal lexical and sentence encoders even without any additional data and without any supervision. We propose an extremely simple, fast and effective contrastive learning technique, termed Mirror-BERT, which converts MLMs (e.g., BERT and RoBERTa) into such encoders in 20-30 seconds without any additional external knowledge. Mirror-BERT relies on fully identical or slightly modified string pairs as positive (i.e., synonymous) fine-tuning examples, and aims to maximise their similarity during identity fine-tuning. We report huge gains over off-the-shelf MLMs with Mirror-BERT in both lexical-level and sentence-level tasks, across different domains and different languages. Notably, in the standard sentence semantic similarity (STS) tasks, our self-supervised Mirror-BERT model even matches the performance of the task-tuned Sentence-BERT models from prior work. Finally, we delve deeper into the inner workings of MLMs, and suggest some evidence on why this simple approach can yield effective universal lexical and sentence encoders.


翻译:在这项工作中,我们证明即使没有额外的数据和任何监督,也有可能将MLMS转化为有效的通用词汇和句号编码器。我们提出了一个非常简单、快速和有效的对比学习技术,称为MAR-BERT,该技术将MLMS(例如,BERT和RoBERTA)在20-30秒内转换成这样的编码器,而没有额外的外部知识。镜-BERT依靠完全相同或稍作修改的弦配对作为积极的(例如,同义)微调示例,目的是在身份微调期间使其相似性最大化。我们报告在标准级别和句级的简化MLMMMMSERT方法上取得了巨大收益,在标准级别和句级上将MLMLMS(例如,BERT)转换成这样的编码器,在20-30秒内,没有额外的外部知识。 镜-BERT的完全相同或略微修改的弦配对是积极的(例如,同义)微调范例,目的是在身份微调时使其更加接近。我们的标准-BERSLMS(例如S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-SL-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-L-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-L-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2021年6月1日
【AAAI2021】预训练用户表示提升推荐
专知会员服务
43+阅读 · 2021年2月8日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
已删除
将门创投
7+阅读 · 2019年3月28日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
利用 Universal Transformer,翻译将无往不利!
谷歌开发者
5+阅读 · 2018年9月4日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关资讯
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
已删除
将门创投
7+阅读 · 2019年3月28日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
利用 Universal Transformer,翻译将无往不利!
谷歌开发者
5+阅读 · 2018年9月4日
Top
微信扫码咨询专知VIP会员