EMNLP 2021 | PairSupCon:基于实例对比学习的句子表示方法

2021 年 10 月 23 日 PaperWeekly


©作者 | ShusenW
学习 | 北京邮电大学
研究方向 | 自然语言处理




论文标题:

Pairwise Supervised Contrastive Learning of Sentence Representations


论文链接:

https://arxiv.org/abs/2109.00542



Abstract


近期句子表示学习的成功主要是通过对 NLI 数据集上用 triplet 或者 siamese 损失进行微调实现性能提升。然而,这些方法存在一个共同的缺点:一对矛盾中的句子不一定来自不同的语义类别。因此,仅仅优化推理蕴含和矛盾的目标函数是无法充分抓取高阶语义特征的,也就是无法对更细粒度的语义进行表示。这个缺点是由于 triplet 或者 siamese 损失只能从单个的句子对或三元组中学习,从而导致糟糕的局部最最优解。

本文提出 PairSupCon,一种基于实例鉴别学习的方法来对低阶语义(蕴含矛盾推理)到高阶语义之间的联系。PairSupCon 在多个包含不同句子语义粒度的下游任务进行评估,并取得明显的性能提升(聚类任务提升 10% 以上精度,STS 任务提升 5% 以上精度)。



Introduction


得到一个高质量的句子表示是 NLP 的一个基础任务。目标是在表示空间中,将语义相近的句子映射到一起,语义不相似的句子相距更远。目前一些常规的做法是在 NLI 数据集上微调预训练模型,从而得到高质量的句子表示用于下游任务。具体的预训练目标是将每个句子对分到三种关系类别:蕴含,矛盾,中立。

即使之前的工作取得了不错的效果,但是这类方法存在一个共同的缺点:构成一对矛盾的句子不一定属于不同的语义类别。这句话的大概意思是,一对矛盾的句子在更细粒度的语义类别中可能属于同一个类

因此,优化推理蕴含和矛盾的目标函数是无法充分对高阶语义类别进行编码的。此外,原始 siamese 损失仅仅从独立的句子对中学习,这通常需要大量的数据集才能达到不错的性能。本文经过实验验证,原始的 siamese 损失有时会得到一个局部最优的模型,导致高阶语义的表现下滑,不如其他模型。

针对以上问题,本文考虑从自监督对比学习的角度出发,联合优化句子对语义推理目标函数和实例鉴别损失。先前的工作已经验证了,实例对比学习能够在表示空间中隐式地将相似的句子聚集到一块,且不需要任何外部监督。

因此,PairSupCon 利用了这种隐式分组效应,将来自同一语义类别的表示集合在一起,同时增强了模型的语义蕴涵和矛盾推理能力。具体效果如 Fig1 所示,(a) 体现了 PairSupCon 增强了模型的语义蕴涵和矛盾推理能力。(b) 体现了模型高阶语义表示能力。


之前的研究主要关注句子相似度相关评价,作者认为对高阶语义类别概念的编码能力同样是评估句子表示质量的重要一面。并且作者也在实验中验证了先前的 SOTA 在编码高阶语义时出现了性能退化。另一方面,如果模型能够更好的编码高阶语义表示,那么对低阶语义的推理(蕴含和矛盾)也有促进作用。这个假设与人是如何从高阶到低阶区分物体的方式是一致的



Model



模型结构如 Fig2 所示,整体框架较为简单,输入为句子对,经过一个共享参数的特征编码器得到句子对表示,然后将句子对表示联合优化实例鉴别 h 和蕴含矛盾分类 f。具体的数据集输入形式如 Fig2(b) 所示。

3.1 Instance Discrimination


实力鉴别,目的是将每个正例对与其他正例对拉远,从而获取更高级的语义特征表示能力。 为一个随机采样的 batch,其中 表示一个蕴含或者矛盾句子对。因此,它的正例(positive)是 NLI 数据集中的每个句子对中的 entailment 句子对。实例对比的目标函数是使得输入的正对 中的假设句 ,在同一个 batch 中远离其他 个句子。更具体地来说,令 表示一个 batch 中句子对的索引,对 做以下处理:


其中, 表示温度参数, 表示余弦相似度。PS:以上函数可以看做是 维的 softmax 分类(将 分为

因此,相似地,我们可以将假设句 与原句 互换一下位置,即可以构造在 个句子中将 鉴别为 的目标函数。因此,最终我们得到了双向实例鉴别函数:


其中, 为指示器函数, 中正样本对的个数。

优化上述损失不仅有助于隐式地将分类语义结构编码到表示中,而且还能提高成对语义推理能力,尽管除了真正的隐含标签外,模型没有成对监督。


3.2 Leaning from Hard Negatives


注意 可以重写为以下形式:


因此这可用解释为原始的 triplet 损失将其他 个样本认为是负例。然而,负例是从训练数据中均匀采样得到了,负例的质量参差不齐。理论上来说,我们更关注高质量负例,也就是困难样本。这类样本来源于不同的语义类别,但是在表示空间中与正例相近。参照 attention 加权的方式,我们可以根据重要性对所有的负例加权:


 
其中,


关于所有 个负例的相对重要程度。这种设计是基于一个假设:在表示空间中,困难样本更可能离正样本本身更近。即使仍然有一些特殊情况,即正样本附近的样本与正样本来自同一个语义类别,但是这在训练集不是很小,以及每个 minibatch 都是均匀采样的情况下是小概率事件。

3.3 Entailment and Contradiction Reasoning


实例鉴别损失主要集中在区分正对,而在区分矛盾和蕴涵方面没有明确的监督。因此,为了促进模型对矛盾和蕴含的推理,本文联合优化了蕴含矛盾推理目标函数。 本文采用 softmax-based cross-entropy 作为目标函数,具体形式为:


其中, 的句子表示。注意,训练蕴含矛盾的数据集是单独从 NLI 数据中抽取出来的,并不参与实例鉴别损失的训练。

3.4 Overall loss


最后,整体的损失函数为:

 
其中, 为超参数,用于平衡蕴含矛盾推理和高阶语义编码。



Experiments


高阶语义表示能力—— 8 个短文本聚类数据集上测试


从实验结果来看,SBERT 通过简单地优化成对的 siamese 损失,导致分类语义结构的退化嵌入。一个可能的原因是 SBERT 使用了一个大的学习率(2e-05)来优化,这可能会导致在原始 BERT 模型中获得的知识的灾难性遗忘。

然而,与 SBERT 相比,PairSupCon 平均提高了 10.8% 到 15.2%,这证实了利用实例识别学习的隐式分组效应,更好地将高级语义概念编码到表示中的动机。

此外,PairSupCon 的性能也比 SimCSE 更好,作者怀疑这是因为 PairSupCon 更好地利用了训练数据。考虑到前提和假设之间的统计数据差异,PairSupCon 可以通过利用 premise 或 SimCSE 未发现的假设句的额外内在语义属性,更好地捕捉分类语义概念。

蕴含矛盾推理能力—— STS 语义相似度数据集上测试


PairSupCon 的表现明显优于普通的 BERT 和 SBERT 模型。这验证了我们的假设,即通过将高级分类结构隐式编码到表示中,PairSupCon 促进了低级语义蕴涵推理目标的更好收敛。这个假设与人类自上而下的分类行为是一致的。

此外,SimCSE 的性能优于 PairSupCon,是由于 SimCSE 性能增益主要是通过将隐含分离和矛盾分离显式地合并到实例识别损失中来贡献的。而 PairSupCon 主要是通过双向实例鉴别损失来获得更好的聚类性能,因此,结合 SimCSE 和 PairSupCon 的优势,开发一个更好的基于实例识别的句子表示学习目标是一个很有前景的方向。

困难样本消融实验


从实验结果可以看出,不管是单纯的实例鉴别还是 PairSupCon,加上困难样本后在 STS 和聚类任务上都有不同程度的性能提升。


Discussion


文章从提高模型高阶句子语义表示能力出发,从而促进低阶语义表示能力提升的角度,提出了一个联合实例鉴别损失和蕴含矛盾推理损失的联合优化模型。


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
0

相关内容

通过潜在空间的对比损失最大限度地提高相同数据样本的不同扩充视图之间的一致性来学习表示。对比式自监督学习技术是一类很有前途的方法,它通过学习编码来构建表征,编码使两个事物相似或不同
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用
专知会员服务
20+阅读 · 2022年1月5日
专知会员服务
9+阅读 · 2021年10月17日
专知会员服务
15+阅读 · 2021年9月25日
专知会员服务
31+阅读 · 2020年9月2日
论文浅尝 | 问题多样性对于问答的帮助
开放知识图谱
0+阅读 · 2021年8月26日
论文浅尝 | 融合多层次领域知识的分子图对比学习
开放知识图谱
2+阅读 · 2021年8月15日
将对比学习扩展到监督式场景
TensorFlow
1+阅读 · 2021年7月20日
成本砍砍砍!不用数据也能用 BERT 做对比学习?
夕小瑶的卖萌屋
0+阅读 · 2021年7月20日
几种句子表示方法的比较
AINLP
15+阅读 · 2019年9月21日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
35+阅读 · 2019年6月23日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2010年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Learning Embedding Adaptation for Few-Shot Learning
Arxiv
16+阅读 · 2018年12月10日
VIP会员
相关资讯
论文浅尝 | 问题多样性对于问答的帮助
开放知识图谱
0+阅读 · 2021年8月26日
论文浅尝 | 融合多层次领域知识的分子图对比学习
开放知识图谱
2+阅读 · 2021年8月15日
将对比学习扩展到监督式场景
TensorFlow
1+阅读 · 2021年7月20日
成本砍砍砍!不用数据也能用 BERT 做对比学习?
夕小瑶的卖萌屋
0+阅读 · 2021年7月20日
几种句子表示方法的比较
AINLP
15+阅读 · 2019年9月21日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
35+阅读 · 2019年6月23日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2010年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员