Learning sentence embeddings often requires a large amount of labeled data. However, for most tasks and domains, labeled data is seldom available and creating it is expensive. In this work, we present a new state-of-the-art unsupervised method based on pre-trained Transformers and Sequential Denoising Auto-Encoder (TSDAE) which outperforms previous approaches by up to 6.4 points. It can achieve up to 93.1% of the performance of in-domain supervised approaches. Further, we show that TSDAE is a strong domain adaptation and pre-training method for sentence embeddings, significantly outperforming other approaches like Masked Language Model. A crucial shortcoming of previous studies is the narrow evaluation: Most work mainly evaluates on the single task of Semantic Textual Similarity (STS), which does not require any domain knowledge. It is unclear if these proposed methods generalize to other domains and tasks. We fill this gap and evaluate TSDAE and other recent approaches on four different datasets from heterogeneous domains.


翻译:学习句嵌入往往需要大量标签数据。 但是,对于大多数任务和领域来说,标签数据很少可用,因此创建数据费用昂贵。 在这项工作中,我们提出了一个基于预先培训的变异器和序列脱氧自动编码器(TSDAE)的新型先进且不受监督的方法(TSDAE),该方法以6.4点为顶峰,优于以往方法。它可以达到内域监督方法绩效的93.1%。此外,我们还表明,TSDAE是一种很强的域域性适应和预培训方法,大大优于隐蔽语言模型等其他方法。 以往研究的一个重要缺点是狭义评价:大多数工作主要评价单项任务,即不要求任何领域知识的精通性文本相似性(STS),不清楚这些拟议方法是否概括到其他领域和任务。我们填补了这一空白,并评价了四套不同领域的TSDADEE和其他最新方法。

0
下载
关闭预览

相关内容

专知会员服务
61+阅读 · 2021年8月4日
【SIGIR 2020】 基于协同注意力机制的知识增强推荐模型
专知会员服务
89+阅读 · 2020年7月23日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】深度学习情感分析综述
机器学习研究会
58+阅读 · 2018年1月26日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
3+阅读 · 2018年8月27日
Phrase-Based & Neural Unsupervised Machine Translation
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】深度学习情感分析综述
机器学习研究会
58+阅读 · 2018年1月26日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员