EMNLP 2022 | 校准预训练模型中的事实知识

会员服务 ·

EMNLP 2022 | 校准预训练模型中的事实知识

2022 年 11 月 22 日 PaperWeekly

©PaperWeekly 原创 · 作者 | werge

研究方向 | 自然语言处理

论文标题：

Calibrating Factual Knowledge in Pretrained Language Models

收录会议：

EMNLP 2022

论文链接：

https://arxiv.org/abs/2210.03329

代码链接：

https://github.com/dqxiu/CaliNet

Overview

近年来，预训练语言模型（PLMs）在多个 NLP 任务上都取得了较好的表现。研究表明 [1] PLMs 可以作为知识库存储事实知识，并帮助提升知识密集型的下游任务，如 QA 等。然而，其存储的事实知识存在一定比例的错误 [2] ，阻碍了下游任务表现。这便引入了一个问题：如何在 PLMs 中直接校准事实知识，而不需要重新训练？在本文中，作者提出了一个任务无关的的轻量级方法 CALINET 来实现这一目标。

如上图所示，为校准的整体过程。首先利用对比知识评估（CKA）方法检测出模型中错误的事实信息，然后引入了 CALINET 对知识进行校准。本文的主要贡献如下：

1. 提出了对比知识评估方法来评估 PLMs 中的错误事实，结果显示预训练模型中有将近

50\%

的事实是错误的。

2. 提出了 CALINET 对错误事实进行校准，在不引入大量额外参数的前提下，该方法可以有效地校正错误事实，并展现了显著的泛化能力。

Methods

2.1 Contrastive Knowledge Assessment

校准的第一步是检测 PLMs 学习了哪些错误事实。传统的评价方法通常采用 rank-based 度量，根据正确实体与其他实体的排名高低来评估该事实是否被正确存储。

然而存在两个问题：1）该方法仅选择排名第一的实体，但正确的预测可以有多个；2）预训练语料中如果尾部实体

o

经常与头部实体

s

共存时，即使它们对某个特定的事实没有任何表达，模型在评估该事实时仍然会给

o

分配较高的排名。

为了解决这些问题，作者提出了对比知识评估方法 CKA 来检测 PLMs 中的虚假事实知识：考虑一个三元组表示的正确事实

<s, r, o>

，其中

s, r, o

分别表示头实体、关系以及尾实体。如果一个预训练模型

M

包含该事实，那么其给出尾实体的条件概率

P_M(o\mid s,\ r)

应大于错误事实的条件概率

P_M(o\mid s,\ r')

。

所以，作者提出了 CKA（Contrastive Knowledge Assessment）分数来表示

M

中的事实正确性，其中

\alpha

是平滑系数：

为了更稳定的比较，作者采样了多个错误事实关系，来计算 CKA 分数，计算过程如下图所示：

最终，通过对 CKA 分数设定一个阈值

threshold = 1

，来判断模型是否学到了正确的事实知识。若分数小于

1

，则说明模型没有学到事实知识；若大于

1

，则认为模型学到了正确事实。

下表比较了本文的 CKA 分数和之前的 rank-based 评估方法。CKA 分数独立考虑了每一个尾实体

o

，且头实体

s

同时出现在 CKA 分数的分子与分母中间，有效缓解了上述 rank-based 方法的两个问题。

2.2 Knowledge Calibration

通过计算 CKA 分数检测模型学到的错误事实信息后，下一步考虑如何对这些错误事实进行校准。

根据之前的工作 [3] [4]，可以将 Transformer 中的 FFN（Feed Forward Network）层视为存储事实知识的 key-value 对，因此，作者设计了一个类似于 FFN 层的网络层结构 CALINET，将每一个新加入的 key-value 对称作校正记忆槽，用于帮助调整原本 FFN 层的预测 token 分布，从而校准存储在 PLMs 中的错误事实。

原本 FFN 层可以被形式化为如下公式：

加入 CALINET 后，FFN 层的输出就变为：

原本

K, V \in \mathbb{R}^{d_m \times d}

，新加入的

\tilde{K}, \tilde{V} \in \mathbb{R}^{d_c \times d}

，其中

d_c

远小于

d_m

，所以本方法仅加入了一小部分参数。

由于一个事实可以用多种形式表示，例如 Obama was born in Hawaii 和 The birthplace of Obama is Hawaii ，描述的都是同一个事实。因此，作者基于 PARAREL 数据集 [5] 构建校准数据，其中包含

38

种关系的各种形式模板。

假设通过 CKA 分数检测出了一个错误事实，作者将

s

或

o

填充到表示同一知识的不同模板中，并 mask 掉另一个实体，让模型来预测 mask 掉的实体，这就成为了一个训练数据。如下表所示，即为 <'obama', 'born in', 'hawaii'> 知识对应的不同数据：

综上，通过在增强的数据上；利用 MLM 目标函数训练 CALINET 中新增的参数（冻结原有 PLMs 的参数），即可帮助模型校准知识，且不影响原本正确的事实知识。

Experiments

实验分为两部分，第一部分为检测实验，第二部分为校准实验。

检测实验中，作者从 T-REx 数据集 [6] 中采样多个事实三元组，按照

2.1

节介绍的方法，对每个事实人工设计三个错误关系三元组，分别计算 t5-base 和 t5-large 的 CKA 分数，其中平滑系数

\alpha = 0

。

校准实验中，针对两个模型，作者分别加入了

d_c = 64/256

个校正记忆槽，并将 CALINET 拼接到模型最后一层的 t5-decoder 的后面。作为对比试验，作者在校准数据集上继续与预训练 [7] 了两个预训练模型。

作为评价指标，作者选取了困惑度、EM 和 F1 分数来表征模型的 Knowledge Modeling 能力，选取了 LM 分数来表征模型的 Language Modeling 能力。

最终实验结果及讨论如下：

首先，校准使得模型困惑度在测试集上降低，在对比测试集（包含错误事实信息）上提升，说明模型更加“了解”了给定的事实知识；另外，EM 和 F1 分数的提升也表明了 CALINET 对模型正确预测的帮助。通过对校准后的模型重新计算 CKA 分数，发现模型的错误事实占比也有显著下降（如 t5-base 从

48.10\%

降到了

17.09\%

），更进一步地证实了 CALINET 的有效性。

为了更深入地研究 CALINET 的 scaling 能力，作者在不同大小的待校准事实上进行了实验。如下图所示，随着待校准事实的数量增多，EM 得分会逐渐降低，但即便待校准事实数量达到

5000

时，CALINET 仍然可以一次性校准 PLMs 中超过

60\%

的事实。

作者还对 CALINET 的泛化性做了实验：作者分别在两个开放域问答数据集 WebQuestions 和 TriviQA 上对 t5 模型进行了微调。根据它们在测试集上的预测正确性，选取回答错误的问题，然后从 T-REx 中检索所有包含这些问题中任何实体的三元组。最后，利用

2.2

节中提到的方法，将这些三元组转化为训练 CALINET 的数据。

最终实验结果如下表所示，可以看到，模型在校准数据集中（Cali. Set）的 QA 表现有所提升，而不在校准数据集（Uncali. Set）中的 QA 表现没有变化，说明 PLMs 中的校准知识也可以用于 QA 任务：

最后，为了探究校准过程的内在机制，作者还输出了模型最高四层 FFN 的 top-10 token，如上表所示，校准前输出的错误结果大多是如 lawyer、English 等高频词，而校准之后，模型不但能输出正确结果，并且也提升了相关同义词的输出概率。这说明作者提出的方法并不仅仅是学到了表面知识，而是真实提升了模型对相关事实知识的“理解”。

Conclusion

在本文中，作者提出了基于对比学习的评估方式，重新评估存储在 PLMs 中的事实知识。并进一步提出了 CALINET，在不改变模型原始参数的情况下，通过向 PLMs 添加新的参数来校准错误事实。实验表明，经过知识校准的 PLMs 能很好地概括经过校准的知识，并且在诸如开放领域 QA 等各种下游任务上均能获得更好的表现。

参考文献

[1] Zhengbao Jiang, Frank F. Xu, Jun Araki, and Graham Neubig. 2020. How can we know what language models know? TACL.

[2] Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun, Lingyong Yan, Meng Liao, Tong Xue, and Jin Xu. 2021a. Knowledgeable or educated guess? revisiting language models as knowledge bases. In Proceedings of ACL.

[3] Mor Geva, Roei Schuster, Jonathan Berant, and Omer Levy. 2021. Transformer feed-forward layers are key-value memories. In Proceedings of EMNLP

[4] Damai Dai, Li Dong, Yaru Hao, Zhifang Sui, Baobao Chang, and Furu Wei. 2022. Knowledge neurons in pretrained transformers. In Proceedings of ACL.

[5] Yanai Elazar, Nora Kassner, Shauli Ravfogel, Abhilasha Ravichander, Eduard Hovy, Hinrich Schütze, and Yoav Goldberg. 2021. Measuring and improving consistency in pretrained language models. TACL, 9.

[6] Hady ElSahar, Pavlos Vougiouklis, Arslen Remaci, Christophe Gravier, Jonathon S. Hare, Frédérique Laforest, and Elena Simperl. 2018. T-rex: A large scale alignment of natural language with knowledge base triples. In Proceedings of LREC.

[7] Suchin Gururangan, Ana Marasovic, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, and Noah A. Smith. 2020. Don’t stop pretraining: Adapt language models to domains and tasks. In Proceedings of ACL.

更多阅读