COLING 2022 | 清华美团提出DABERT：针对匹配任务的双通道注意力增强预训练模型

会员服务 ·

COLING 2022 | 清华美团提出DABERT：针对匹配任务的双通道注意力增强预训练模型

2022 年 11 月 5 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 段成真

单位 | 小米AI Lab

研究方向 | 自然语言处理

论文标题：

DABERT: Dual Attention Enhanced BERT for Semantic Matching

论文链接：

https://arxiv.org/abs/2210.03454

论文动机

短文本语义匹配一直是一个非常热门的方向，广泛应用在工业界搜索、推荐、广告等领域的召回排序模块。虽然 BERT 等基于 Transformer 的预训练语言模型在语义句子匹配方面取得了显著成果。但是现有匹配模型一直有很严重的问题，那就是模型存在捕捉细微差异的能力不足的问题，这就给引擎在长冷相关性判断上带来了很大的挑战，如果识别出文本对中的细微差异，可以为用户提供更好的用户体验。

例如下图的例子，诸如单词的添加，删除和修改句子之类的细微改动可能会导致语义预测错误。尽管图中的句子对在语义上有所不同，但它们在字面上过于相似，以至于那些预先训练好的语言模型无法准确区分。

那么这个时候如何让模型感知到这些差异，增强模型对文本的理解？这就是本文要解决的问题。

模型设计

前人的工作例如 De attention（ICLR 2019）和 Sparsegen（ICML 2016）已经证明，配备了结构更灵活的注意机制，模型可以产生更强大的表示。作者延续上述前人论文的思想侧重于增强基于变换器的预训练模型中的注意机制，以更好地整合句子对之间的差异信息。具体来说他们假设，更多地关注细粒度语义差异，将差异和亲和向量显式建模在一起，将进一步提高预训练模型的性能。因此，自然而然就会有下面两个问题：

问题 1：如何使预训练模型具备对句子对之间细粒度差异的建模能力？

问题 2：如何在不破坏预训练模型已有知识的前提下融合异构信息？

围绕上面的的两个问题， 本文设计了一个双通道注意力网络，在建模差异信息的同时尽量减少对预训练模型已有知识的破坏 ，模型的整体结构如下：

2.1 Dual Attention Module

针对第一个问题，本文提出一种双注意模块，它在多头注意中使用双通道机制来匹配两个句子之间的单词。每个通道使用不同的注意头分别计算亲和力和差异分数，并获得两种表示分别测量亲和力和差别信息。

1）亲和注意力：他的目的是获得文本对中任意词对的亲和度。它是标准的点积注意，在 Transformer 的默认操作保持一致。为了简单起见，Transformer 的公式在此不再重复，请参阅 attention is all you need ，公式如下：

2）差异注意力：差异注意力模块被用于捕获和聚合句子对之间的差异信息。一个最简单的想法就是使用基于减法的交叉注意机制，这种方法在预训练模型之前被用于构建强特征，例如 ESIM、BIMPM 等，这种方法使得模型可以去注意句子对之间的不同部分，具体公式如下所示：

这样，通过亲和注意和差异注意来拟合句子对的细粒度语义匹配关系，并分别从亲和和差异的角度获得相同维度的表征。最后获得对描述句子匹配的更详细的两个表示。那么如何将他们融合呢？这就回到了模型设计的第二个问题。

2.2 Adaptive Fusion Module

针对第二个问题，本文提出了一种新的自适应融合模块来融合这两个信号，而不是直接融合（即平均嵌入向量），作者在实验中证明直接融合可能会损害预训练模型的原始表示能力，这个也比较符合人类的直觉。

融合过程包括三个步骤。首先，它通过多模态常用的双线性注意力函数灵活的交互和对齐这两个信号。其次，采用多个门模块有选择地提取交互语义信息。最后，为了减轻差分信号对预训练模型的破坏，还利用滤波门控自适应滤除噪声信息，最后生成更好地描述句子匹配细节的向量。

1）双线性 attention，多模态中常用这种操作，在此不做详述，公式如下：

2）融合门控，也是常规操作，动态对每个 position 的向量加权融合，公式如下：

3）过滤门控，在上面两个门控之后，作者还使用了缩放的门控来控制整体整体信息对模型的影响，有点类似搜索中词权重的模型，作者在消融实验中也证明了这种方法的重要性，具体公式如下，

最后这些生成的向量在过滤门进一步缩放后，得到一个输出的最终向量既包含了词对的亲和度也包含了词对之间的差异，从而可以更好地描述句子对的匹配细节。

实验设计

作者在实验部分不仅在多个匹配数据集上进行了模型效果的展示，而且还使用了鲁棒性测试工具 TextFlint 对模型的鲁棒性进行了测试。

1）GLUE 数据集：作者在 6 个 GLUE 数据集上 finetune DABERT，下表显示了 DABERT 和其他基线的性能比较。可以看出，由于 PLMs 具有较强的上下文感知能力和数据拟合能力，使用非预处理模型的性能明显不如预训练模型。当主干模型 BERT-base 和 BERT-large 时，DABERT的平均精度分别比普通 BERT 提高 1.7% 和 2.3%。这也证明了融合差异关注对挖掘语义的优点。