NAACL 2022 | 基于Prompt的文本生成迁移学习

2022 年 8 月 31 日 PaperWeekly

©PaperWeekly 原创 · 作者 | werge

研究方向 | 自然语言处理

OverView

预训练语言模型（PLM）通过微调在文本生成任务方面取得了显著进展。然而，在数据稀缺的情况下，微调 PLMs 是一项挑战。因此，开发一个通用且轻量级的，可以适应各种文本生成任务的模型，是非常重要的。

在本文中，作者提出了一种新的基于 prompt 的文本生成方法 PTG。首先针对几类源任务分别学习最优的 prompt，然后迁移转化为目标任务的目标 prompt。为了同时考虑任务级和实例级信息，作者还设计了一种自适应注意机制来导出目标 prompt。实验表明，PTG 方法获得了比微调方法更好的结果。

论文标题：

Learning to Transfer Prompts for Text Generation

收录会议：

NAACL 2022

论文链接：

https://arxiv.org/abs/2205.01543

Introduction

在自然语言处理中，文本生成旨在从输入数据自动生成人类语言中可理解的文本。通过在大规模通用语料库上预训练的大规模参数，GPT-3 等大规模预训练模型（PLMs）在文本生成方面取得了实质性进展。通过微调范式（finetune paradigm），PLMs 可以直接通过调整模型参数来适应各种文本生成任务。然而在现实场景中，不可避免地存在只有有限标记数据的任务，这就给微调模型带来了困难。

最近提出的基于提示了（prompt）的学习提供了一种潜在的解决方案 [1]。在这个范式中，文本生成任务可以通过包含任务特定信息的提示来解决。例如，T5 可以通过 propmt “summarize” 和 “answer the question” 分别将摘要问题和 QA 问题转化为一般的文本生成任务格式。由此，通过可学习的或手动设计的 prompt，可以让 PLMs 不通过微调直接应用到新的生成任务上。

尽管前景广阔，利用 prompt 指导的文本生成仍存在两大挑战。首先，已经发现 prompt 具有高度的任务特异性 [2]，也即一个任务上的 prompt 很难有效地转移或重用到新任务；其次，对于单个任务，即使是学习良好的 prompt 也可能不适用于大数据集中的所有数据实例 [3]。因此，在设计 prompt 时需要同时考虑任务级特征和实例级特征，从而使 prompt 有效迁移。

为了解决上述问题，作者提出了一种新的基于 prompt 的文本生成迁移学习方法 PTG。首先，从许多具有代表性的源任务中学习 source prompt，然后将这些 prompt 进行迁移，以生成 target prompt 执行目标任务。作者构建了一个多密钥存储网络，用于存储源提示和提示簇；设计了一种同时考虑任务和实例级信息的自适应注意力机制，以导出目标 prompt。

本文的方法可以有效的从特定数据实例的 prompt 中学习最合适的表示，考虑到了实例级特征，从而可以将现有任务的 prompt 更灵活地转移到新的文本生成任务中。作者在来自三组文本生成任务的14个数据集上测试了 PTG 方法，在全监督和 few-shot 实验中，PTG 均取得了比微调范式有竞争性甚至更好的结果。

Method

2.1 Learning Transferable Source Prompts

本文提出的方法 PTG（Prompt Transfer for Text Generation）如上图所示，可以分为两个部分：首先学习可迁移的源 prompt，其次根据目标任务进行自适应 prompt 迁移。

首先，为了从源生成任务中提取任务相关知识，对于每一个源生成任务，作者均在一个固定的 PLM 上根据该任务上的数据训练得到 prompt ，并存储在提示池（Prompt Pool）中 [4] ：，从而可以方便地计算各个任务之间的相似度，并共享给目标任务。

构建源提示池的关键在于选择源文本生成任务。根据 [5] 的结论，文本生成任务可以大致分类为压缩（例如摘要）、转换（例如风格转换）和生成（如故事生成）三类，且任务多样性可以有效缓解少样本的迁移问题。因此，作者在三种类型的生成任务中选择了六个文本生成任务（包括 14 个公共数据集），以学习它们对应的源提示。利用 spectral clustering 算法，作者将源提示进行了进行了聚类，两个 prompt 之间的相似度通过如下公式计算：

其中，表示提示的第个向量。在这之后，作者利用 min-max cut strategy 将提示池中的所有 prompt 分为了不同的簇，从而能更好地使模型发现不同任务之间的差异性。

为了促进从源任务到目标任务的提示转换，我们构建了一个多键内存网络（Multi-Key Memory Network）来存储这些 Prompt：对于一个簇中的 prompt ，分别构建两个可学习的键和，前者为 cluster key，后者为 prompt key。

2.2 Transferring Instance Adaptive Prompts

在之前的工作中，都忽略了同一个任务中不同输入实例的区别，但不同实例适合的 prompt 可能是不同的，因此，作者提出了一种自适应注意力机制来同时考虑任务级别和实例级别的特征：对于任务上的一个实例，除了可学习的 task query 以外，作者还加入了实例 query：

其中，表示每一个 input token 经过 BERT 编码后顶层表示的平均值。

这样，最终的实例和提示之间的匹配分数就可以利用注意力机制进行计算：

其中为超参数。最终该实例所选择的 prompt 即为。

基于上述自适应注意机制，通过在模型输入前，在输入的 embedding 前加上 prompt，一起输入 PLMs 即可生成文本，其最大似然估计就转化为了：

Experiments

3.1 Experimental Setup

作者选取了 14 个公共数据集，并按照 2.1 分为了三类，如下图所示：

作为对比的 Baseline 如下：

（1）GPT-2, BART, T5：三个文本生成任务上具有代表性的 PLMs，作者均选取了 LARGE 版本。

（2）PREFIXTUNING [6]: 这是最近最先进的基于 prompt 的PLM，通过连接一系列向量和输入来生成文本。它冻结了 PLM 参数，但优化了一组连续前缀向量。

（3）SPOT：它还采用了一种基于 propmt 的迁移学习方法，首先训练源任务的提示，然后使用生成的提示初始化目标任务的提示

（4）MULTI-TASK MODELTUNING：这个强大的多任务 baseline 首先在用于 PTG 的相同源任务上微调 BART，然后分别在每个目标任务数据集上微调。

3.2 Results

如下图所示，Table 1 和 Table 2 分别给出了跨任务和跨数据集的可转移性完全监督结果。

对于跨任务实验，作者考虑了两对源任务和目标任务的转移：1）目标任务是摘要（CNN/DailyMail），源任务是其他五个任务的混合；2）目标任务是对话任务（PersonChat），源任务是其他五个任务。对于跨数据集实验，作者也分为了两种情况：1）目标数据集是 CNN/DailyMail 或 XSum，源数据集是其他四个摘要数据集的混合；2）目标数据集是 PersonaChat 或 DailyDialog，源数据集是其他四个对话数据集的混合。

如上图所示，PTG 优于 GPT-2、BART、T5 和 PrefixTuning，这说明 PTG 方法利用了从源任务中学习到的知识，可以有效地通过 prompt 迁移提升微调模型的性能。

其次，PTG 的性能优于基于 prompt 迁移的方法 SPOT。SPOT 与 PTG 的区别在于，SPOT 会平等地考虑每个源任务，并忽略特定的实例信息。相比之下，PTG对不同的源提示进行聚类，并使用自适应注意机制，同时考虑任务和实例级特征，所以效果更好；

最后，PTG 相较于有竞争性的 MULTI-TASK MODELTUNING 效果更好。这可能是因为文本生成任务需要基于不同的输入数据生成不同的文本，因此具有较大的任务边界。因此，在跨任务传输中，在不考虑任务相似性的情况下，简单地调整混合任务上的 PLM 会导致性能下降。尽管如此，PTG 仍表现更好，说明其提高了任务和数据集的稳定性。

如上图所示，作者又进行了 few-shot 实验：仅对目标任务的少数训练实例进行采样以训练模型，分别获得了大小为 {50、100、200、500} 的小训练集，选取的跨任务和跨数据集设置与全监督相同。

可以清楚地观察到，在大多数 few-shot 情况下，PTG 比强 baseline（MULTI-TASK MODELTUNING）具有相当甚至更好的性能，但随着训练数据集大小的增加，两者之间的差距会缩小。且 PTG 仍优于大多数 PLMs。这可能的原因是，大型 PLM 由于其大量参数，在 few-shot 训练阶段可能会过拟合，而 PTG 采用了一种轻量级技术（即 prompt）来学习源提示，可以将以前在源任务中学习到的知识提供给 PLM，并在解决目标任务时作为更好的起点。

Conclusion

本文提出了一种基于提示的文本生成迁移学习方法。从许多有代表性的源生成任务中学习一组提示，然后将这些提示作为目标提示来执行目标生成任务。文中，作者设计了一种同时考虑任务级别和实例级别信息的自适应注意机制，以构建目标提示。在完全监督和 few-shot 数据集中的实验证明了该方法的有效性。

参考文献

[1] Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, and Graham Neubig. 2021b. Pretrain, prompt, and predict: A systematic survey of prompting methods in natural language processing. CoRR, abs/2107.13586.

[2] Tianyu Gao, Adam Fisch, and Danqi Chen. 2020. Making pre-trained language models better few-shot learners. arXiv preprint arXiv:2012.15723.

[3] Teven Le Scao and Alexander M. Rush. 2021. How many data points is a prompt worth? In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2021, Online, June 6-11, 2021, pages 2627–2636. Association for Computational Linguistics.

[4] Zifeng Wang, Zizhao Zhang, Chen-Yu Lee, Han Zhang, Ruoxi Sun, Xiaoqi Ren, Guolong Su, Vincent Perot, Jennifer Dy, and Tomas Pfister. 2022. Learning to prompt for continual learning.

[5] Mingkai Deng, Bowen Tan, Zhengzhong Liu, Eric P. Xing, and Zhiting Hu. 2021. Compression, transduction, and creation: A unified framework for evaluating natural language generation. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, EMNLP 2021, Virtual Event / Punta Cana, Dominican Republic, 7-11 November, 2021, pages 7580–7605. Association for Computational Linguistics.

[6] Xiang Lisa Li and Percy Liang. 2021. Prefix-tuning: Optimizing continuous prompts for generation. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, ACL/IJCNLP 2021, (Volume 1: Long Papers), Virtual Event, August 1-6, 2021, pages 4582–4597. Association for Computational Linguistics.

更多阅读