NAACL 2022 | DOP-Tuning: 面向对话摘要领域自适应的轻量级微调方法

会员服务 ·

NAACL 2022 | DOP-Tuning: 面向对话摘要领域自适应的轻量级微调方法

2022 年 4 月 25 日 PaperWeekly

©作者 | 曾伟豪

单位 | 北京邮电大学

研究方向 | 对话摘要生成

本文介绍一下我们组在面向领域迁移的对话摘要任务上的工作。

论文标题：

Domain-Oriented Prefix-Tuning: Towards Efficient and Generalizable Fine-tuning for Zero-Shot Dialogue Summarization

论文来源：

NAACL 2022

论文链接：

https://arxiv.org/abs/2204.04362

代码链接：

https://github.com/Zeng-WH/DOP-Tuning

Motivations

当前的对话摘要模型往往缺乏在新领域上的泛化性，因为大规模的生成式预训练模型往往需要大量的人工标注的黄金摘要，在 few/no labeled 的场景下无法扩展到新的领域。

当前研究摘要领域迁移的方法需要耗时的预训练和大规模额外的语料库。他们仅关注沉重的预训练步骤而不是轻量化的微调过程。

Contributions

我们第一个探索对话摘要的领域迁移任务的 fine-tuning 方法，并且在 TODSum （TODSum 是我们提出的对话摘要数据集）和 QMSum 两个数据集上建立了实用且全面的 benchmarks.

本文提出了轻量且有效的面向领域的 Prefix-tuning 的模型，该模型使用领域词初始化的 prefix 模块以及离散的 prompt 来从大规模预训练模型中交互式地提取知识。

进行了充分的实验和定量分析来证明了我们提出的方法的有效性，并且讨论了面向领域迁移的对话摘要所存在的挑战。

Methodology

模型结构包括 Domain-Oriented Prefix，Prompt Encoder 以及 Decoder 三个部分。

3.1 Domain-Oriented Prefix

为了缓解领域耦合的问题，我们提出了 domain-oriented 的 prefix 模块来从源域和目标域中获取共享的知识。

采用 two-step 构建 Domain-Oriented Prefix，包括初始化和参数化。

3.1.1 Initialization

1. 利用 LDA 主题模型从对话文本中提取每个领域的关键词，并且将他们拼接起来构成 domain word（prefix）序列

2. 随机初始化 domain word 序列组成可学习的矩阵

3.1.2 Parametrization

1. 利用 MLP 和预训练的 BART 模型分别得到 domain word 序列的表示，重新训练 MLP 使用 MSE loss 使得 MLP 的输出与预训练的 BART 的 decoder hidden states 相同，以此从预训练模型中解藕出领域知识。

2. 在更新 MLP 参数的过程中保持预训练的 BART 的参数固定。

3. 得到 MLP 的参数初始化，并使用预训练好的 MLP 来映射 prefix 表示的初始化 embeddings。

3.2 Prompt Encoder

3.2.1 Discrete Prompts

1. 将 TODSum 数据集中的对话状态和 QMSum 中的 queries 作为离散的Prompts。

2. 对于对话状态这种结构化的信息，将结构化的信息转化为文本序列。

3.2.2 Transformer Layer

1. 将离散的 prompt 序列以及对话文本序列作为 encoder 的输入序列。

2. 通过修改添加 domain-oriented prefix 序列的键值对来修改 self- attention 机制。

3.3 Decoder

将 Prefix 模块也加到 decoder 上，以类似的方式修改 cross-attention 和 self- attention 机制。

3.4 Training Strategy

采用如下的训练目标更新梯度：

在训练过程中中固定 BART 的参数，而更新 prefix 的参数。在训练时使用来自源域的领域词作为 prefix 序列。当训练完成以后，保存 domain-oriented 的 prefix 模块的参数，而丢弃掉预训练好的 BART 模块的参数。

在测试的过程中，目标域的领域词则被 MLP 模块映射为 prefix 表示。

Experimental Setup

4.1 Datasets

在两个 multi-domain 对话摘要数据集上评估了模型的效果。

4.1.1 TODSum

TODSum 是基于经典对话数据集 MultiWOZ 提出的 task-oriented 对话摘要数据集。根据领域信息，数据集可以被划为 5 个领域：restaurant，hotel，attraction，taxi 以及 train。在实验时，选择 5 个域中的 4 个域作为源域，剩下的域作为目标域，从源域中抽取 200 个样本作为验证集，源域的剩余数据作为训练集，目标域的数据作为测试集。

4.1.2 QMSum

QMSum数据集包括上千条会议录音数据，包括三个领域：academic，committee 以及 product。采用类似于 TODSum 数据集的处理方式。

4.2 Main Results

4.2.1 Results on TODSum

可以看到，Prefix-Tuning 相比较 BART，BART w. DS., 表现要差，是因为对话文本很长且复杂，仅使用 fine-tuning 参数的 20% 很难理解领域知识，以及识别对话中的关键内容。在与 Prefix-tuning 具有相同量级的参数下，DOP- tuning 在 5 个领域都有了较大的提升。这表明由领域词初始化的 prefix 模块以及有对话状态组成的离散的 prompts 发挥了重要的作用。除此之外，模型比全参数 fine-tuning 的模型 BART 要好，说明模型可以有效地从源域和目标域中解藕出知识。上述结果表示，在有限的数据情况下，模型仍然可以达到 SOTA 的结果。

4.2.2 Results on QMSum

整体表现的趋势与在 TODSum 数据集上的表现一致，但是可以看出在 Rouges 的分数相对而言较低，是因为领域并没有明显的领域词，导致了严重的领域耦合的问题。除此之外，由于会议文本过长，很难从对话中捕捉核心内容。总的来说，这些结果表明多领域设置对于会议摘要是非常必要且有意义的。

Qualitative Analysis

5.1 Effect of Domain Words

探究领域词数量的影响，可以看到领域词数量在 140 时使 rouge 达到了峰值，当低于 140 时，效果降低，说明参数量不足影响了模型的表现。当领域词数量超过阈值时，模型的表现下降，说明了太长的 prefix 序列给 BART 增加了负担，并且引入了额外的噪声。但是，领域词数量的变化并没有对模型的表现的有太大的影响（只有 2～3% 的起伏），说明了 domain-oriented prefix 模块和有效性和模型的鲁棒性。

5.2 Quality of Domain Words

探究领域词的质量的影响，将领域词的中的一定比例的词语以与领域无关的词汇替代。可以看到，随着更多的噪声被引入，模型受到更大的影响且表现下降。当噪声的比例超过 100% 时，模型的表现甚至比 Prefix- Tuning 糟糕。这是因为，我们使用完全无关的词汇去初始化 Prefix 模块，相比较随机初始化引入了更多的噪声影响了 DOP 的表现。从这一点看，引入高质量的领域词有利于领域解藕，高质量的领域词对摘要生成是重要的。

5.3 Ablation Study

研究了 domain-oriented initialization 和 discrete prompts 的影响。同时去掉两个模块与原始 prefix-tuning 相同。可以看到去除 prefix- tuning 中的 domain- oriented 初始化会使模型表现严重下降，说明 domain word 信息在面对新领域时引入相关知识的重要性。同时，移除离散的 prompts 也会使模型表现更糟糕（但仍然会好于 Prefix-Tuning），说明离散的 prompts 能让模型更关注对话中核心的内容进而提升模型的表现。

5.4 Effect of Prefix Module in Encoder and Decoder

由于 DOP-method 在 encoder 和 decoder 中均引入了 prefix 模块，研究两个部分的 prefix 模块对模型表现的影响。可以看到，当两个部分的 prefix 被移除后，模型的表现均下降，说明了两个模块的 prefix 都是必要且高效的。

一个有趣的现象是移除 encoder 的 prefix 的影响要小于移除 decoder 的 prefix 的影响。一个比较合理的解释是在 encoder 和 decoder 端的 prefix 的作用是不一样的。在 encoder 端的 prefix 主要帮助模型理解对话，而 decoder 端的 prefix 主要帮助模型生成。因此，对于摘要生成，decoder 端的 prefix 模块对模型更有用。

5.5 Human Evaluation

对模型进行了人工评估。

表中显示，所有模型的流畅程度都较高，说明在较强的 backbone 上微调的抽象摘要模型能够生成更流畅的句子。在事实一致性上，DOP 以及 BART ws DS 好于 Prefix-tuning 的表现，说明对话状态信息能引导模型更关注与核心的信息，例如槽值和意图。初次之外，DOP-tuning 在领域相关性上的表现超过了其他基线模型。说明了 domain-oriented 模块在提升模型识别领域相关特征以及从源域和目标域解藕出知识的能力。

5.6 Effect of Training Data

5.6.1 Performance in Few-shot Settings

对于 TODSum 数据集，固定源域的数据规模，将目标域的数据加入训练数据。可以看到随着目标域数据的增加，BART w. DS 和 DOP 的表现提升，但 DOP-tuning 始终好于 BART w. DS. 说明目标域的知识增加可以让模型学到目标域的信息。

5.6.2 Effect of Source Domain Data Size

保持 zero-shot 的设置不变，调整源域数据的规模

可以看到随着数据规模的减小，BART w. DS 的表现变差，而 DOP-tuning 能够相对优秀地保持稳定。说明 DOP-tuning 对数据规模不太敏感，并且具有一定程度的鲁棒性。这与主实验的结果一致，模型在有限和 unseen data 上表现优异。

5.7 Prefix Length vs. Input Length

研究 Prefix Length 和 input Length 的关系，具体而言 source input length，target input length 以及对应的 optimal prefix length 的关系。可以得出更长的 inputs 可能更青睐于更短的 prefix.

Challenges

总结了抽象对话摘要的低资源领域迁移的挑战：

1. Confusion between domains with high similarity

对于词汇表高度重合的领域，如restaurant 和 hotel，train 和 taxi，模型会产生 domain-confusing 句子。以 hotel- restaurant 对作为例子，当 restaurant 作为目标域，“book a restaurant room that can accommodate 3 people”会被生成，这样的句子其实更应该存在 hotel 领域中。但需要注意的是，这种 challenge 并不会影响关键因素的准确率，但 language style 则是不合适的。

2. Information dispersion

由于对话数据通常是长序列，因此模型很难对长对话中的所有方面都能 pay attention，因此会产生对话中关键元素的注意力的偏差，尤其是在轻量和小参数训练的场景下。

Conclusion

在本文中，我们提出了基于高效且可泛化的微调方法面向领域的 domain-oriented prefix-tuning 模型解决对话摘要中的领域迁移的方法。使用领域词初始化的 prefix 模块能够从源域解藕出目标域的知识，而离散的 prompts 能够提升模型的泛化性。在 zero-shot 和 few-shot 下的实验说明我们的方法在两个数据集下取得了巨大的进步。

更多阅读