EMNLP 2021 | PairSupCon：基于实例对比学习的句子表示方法

会员服务 ·

EMNLP 2021 | PairSupCon：基于实例对比学习的句子表示方法

2021 年 10 月 23 日 PaperWeekly

©作者 | ShusenW

学习 | 北京邮电大学

研究方向 | 自然语言处理

论文标题：

Pairwise Supervised Contrastive Learning of Sentence Representations

论文链接：

https://arxiv.org/abs/2109.00542

Abstract

近期句子表示学习的成功主要是通过对 NLI 数据集上用 triplet 或者 siamese 损失进行微调实现性能提升。然而，这些方法存在一个共同的缺点：一对矛盾中的句子不一定来自不同的语义类别。因此，仅仅优化推理蕴含和矛盾的目标函数是无法充分抓取高阶语义特征的，也就是无法对更细粒度的语义进行表示。这个缺点是由于 triplet 或者 siamese 损失只能从单个的句子对或三元组中学习，从而导致糟糕的局部最最优解。

本文提出 PairSupCon，一种基于实例鉴别学习的方法来对低阶语义（蕴含矛盾推理）到高阶语义之间的联系。PairSupCon 在多个包含不同句子语义粒度的下游任务进行评估，并取得明显的性能提升（聚类任务提升 10% 以上精度，STS 任务提升 5% 以上精度）。

Introduction

得到一个高质量的句子表示是 NLP 的一个基础任务。目标是在表示空间中，将语义相近的句子映射到一起，语义不相似的句子相距更远。目前一些常规的做法是在 NLI 数据集上微调预训练模型，从而得到高质量的句子表示用于下游任务。具体的预训练目标是将每个句子对分到三种关系类别：蕴含，矛盾，中立。

即使之前的工作取得了不错的效果，但是这类方法存在一个共同的缺点：构成一对矛盾的句子不一定属于不同的语义类别。这句话的大概意思是，一对矛盾的句子在更细粒度的语义类别中可能属于同一个类。

因此，优化推理蕴含和矛盾的目标函数是无法充分对高阶语义类别进行编码的。此外，原始 siamese 损失仅仅从独立的句子对中学习，这通常需要大量的数据集才能达到不错的性能。本文经过实验验证，原始的 siamese 损失有时会得到一个局部最优的模型，导致高阶语义的表现下滑，不如其他模型。

针对以上问题，本文考虑从自监督对比学习的角度出发，联合优化句子对语义推理目标函数和实例鉴别损失。先前的工作已经验证了，实例对比学习能够在表示空间中隐式地将相似的句子聚集到一块，且不需要任何外部监督。

因此，PairSupCon 利用了这种隐式分组效应，将来自同一语义类别的表示集合在一起，同时增强了模型的语义蕴涵和矛盾推理能力。具体效果如 Fig1 所示，(a) 体现了 PairSupCon 增强了模型的语义蕴涵和矛盾推理能力。(b) 体现了模型高阶语义表示能力。

之前的研究主要关注句子相似度相关评价，作者认为对高阶语义类别概念的编码能力同样是评估句子表示质量的重要一面。并且作者也在实验中验证了先前的 SOTA 在编码高阶语义时出现了性能退化。另一方面，如果模型能够更好的编码高阶语义表示，那么对低阶语义的推理（蕴含和矛盾）也有促进作用。这个假设与人是如何从高阶到低阶区分物体的方式是一致的。

Model

模型结构如 Fig2 所示，整体框架较为简单，输入为句子对，经过一个共享参数的特征编码器得到句子对表示，然后将句子对表示联合优化实例鉴别 h 和蕴含矛盾分类 f。具体的数据集输入形式如 Fig2(b) 所示。

3.1 Instance Discrimination

实力鉴别，目的是将每个正例对与其他正例对拉远，从而获取更高级的语义特征表示能力。令

为一个随机采样的 batch，其中表示一个蕴含或者矛盾句子对。因此，它的正例（positive）是 NLI 数据集中的每个句子对中的 entailment 句子对。实例对比的目标函数是使得输入的正对中的假设句，在同一个 batch 中远离其他个句子。更具体地来说，令表示一个 batch 中句子对的索引，对做以下处理：

其中，表示温度参数，表示余弦相似度。PS：以上函数可以看做是维的 softmax 分类（将分为）

因此，相似地，我们可以将假设句与原句互换一下位置，即可以构造在个句子中将鉴别为的目标函数。因此，最终我们得到了双向实例鉴别函数：

其中，为指示器函数，中正样本对的个数。

优化上述损失不仅有助于隐式地将分类语义结构编码到表示中，而且还能提高成对语义推理能力，尽管除了真正的隐含标签外，模型没有成对监督。

3.2 Leaning from Hard Negatives

注意可以重写为以下形式：

因此这可用解释为原始的 triplet 损失将其他个样本认为是负例。然而，负例是从训练数据中均匀采样得到了，负例的质量参差不齐。理论上来说，我们更关注高质量负例，也就是困难样本。这类样本来源于不同的语义类别，但是在表示空间中与正例相近。参照 attention 加权的方式，我们可以根据重要性对所有的负例加权：

其中，

为关于所有个负例的相对重要程度。这种设计是基于一个假设：在表示空间中，困难样本更可能离正样本本身更近。即使仍然有一些特殊情况，即正样本附近的样本与正样本来自同一个语义类别，但是这在训练集不是很小，以及每个 minibatch 都是均匀采样的情况下是小概率事件。

3.3 Entailment and Contradiction Reasoning

实例鉴别损失主要集中在区分正对，而在区分矛盾和蕴涵方面没有明确的监督。因此，为了促进模型对矛盾和蕴含的推理，本文联合优化了蕴含矛盾推理目标函数。本文采用 softmax-based cross-entropy 作为目标函数，具体形式为：

其中，为的句子表示。注意，训练蕴含矛盾的数据集是单独从 NLI 数据中抽取出来的，并不参与实例鉴别损失的训练。

3.4 Overall loss

最后，整体的损失函数为：

其中，为超参数，用于平衡蕴含矛盾推理和高阶语义编码。

Experiments

高阶语义表示能力—— 8 个短文本聚类数据集上测试

从实验结果来看，SBERT 通过简单地优化成对的 siamese 损失，导致分类语义结构的退化嵌入。一个可能的原因是 SBERT 使用了一个大的学习率（2e-05）来优化，这可能会导致在原始 BERT 模型中获得的知识的灾难性遗忘。

然而，与 SBERT 相比，PairSupCon 平均提高了 10.8% 到 15.2%，这证实了利用实例识别学习的隐式分组效应，更好地将高级语义概念编码到表示中的动机。

此外，PairSupCon 的性能也比 SimCSE 更好，作者怀疑这是因为 PairSupCon 更好地利用了训练数据。考虑到前提和假设之间的统计数据差异，PairSupCon 可以通过利用 premise 或 SimCSE 未发现的假设句的额外内在语义属性，更好地捕捉分类语义概念。

蕴含矛盾推理能力—— STS 语义相似度数据集上测试

PairSupCon 的表现明显优于普通的 BERT 和 SBERT 模型。这验证了我们的假设，即通过将高级分类结构隐式编码到表示中，PairSupCon 促进了低级语义蕴涵推理目标的更好收敛。这个假设与人类自上而下的分类行为是一致的。

此外，SimCSE 的性能优于 PairSupCon，是由于 SimCSE 性能增益主要是通过将隐含分离和矛盾分离显式地合并到实例识别损失中来贡献的。而 PairSupCon 主要是通过双向实例鉴别损失来获得更好的聚类性能，因此，结合 SimCSE 和 PairSupCon 的优势，开发一个更好的基于实例识别的句子表示学习目标是一个很有前景的方向。

困难样本消融实验