ACL 2022 | PromDA：基于提示的低资源自然语言理解数据增强

会员服务 ·

ACL 2022 | PromDA：基于提示的低资源自然语言理解数据增强

2022 年 4 月 26 日 PaperWeekly

©作者 | 李雪峰

单位 | 北京邮电大学

研究方向 | 序列标注

论文标题：

PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks

收录会议：

ACL 2022

论文链接：

https://arxiv.org/pdf/2202.12499.pdf

源码链接：

https://github.com/GaryYufei/PromDA

Abstract

本文重点关注低资源自然语言理解（NLU）任务的数据增强。作者提出了基于 prompt 的数据增强模型（PromDA），它只在冻结的预训练语言模型（PLM）中训练小规模的软提示（即一组可训练的向量）。这避免了人工收集未标记的域内数据并保持生成的合成数据的质量。此外，PromDA 通过两个不同的视图生成合成数据，并使用 NLU 模型过滤掉低质量的数据。

四个基准的实验表明，PromDA 生成的合成数据成功地提高了 NLU 模型的性能，这些模型始终优于几个竞争基线模型，包括使用未标记的域内数据的最先进的半监督模型。PromDA 的合成数据也与未标记的域内数据互补。NLU 模型在结合起来进行训练时可以得到进一步的改进。

Introduction

深度神经网络通常需要大规模的高质量标记训练数据来实现最先进的性能。然而，在许多情况下构建标记数据可能具有挑战性。在本文中，作者研究了低资源自然语言理解（NLU）任务，包括句子分类和序列标记任务，其中只有少量标记数据可用。之前的一些工作经常让模型产生一些“有标签的数据”，再喂给下游模型训练。这种也就是我们熟知的 self-training 的训练方式；也有一些工作使用自动启发式规则（例如随机同义词替换）扩展原始的小训练数据，从而有效地创建新的训练实例。然而，这些过程可能会扭曲文本，使生成的句法数据在语法和语义上不正确。

为了解决上述困境，许多现有的工作求助于应用语言模型（LMs）或预训练语言模型（PLMs）用于低资源环境中的数据增强。给定标记的数据，可以直接微调 PLM 以生成新的合成数据，而无需额外的人力。然而，我们认为，在低资源 NLU 任务中，使用少量训练数据（尤其是当样本少于 100 个时）直接微调 PLM 的所有参数可能会导致过度拟合，而 PLM 只会记忆训练实例。结果，生成的合成数据可能与原始训练实例非常相似，并且无法为 NLU 模型提供新的训练信号。

最近，一些工作提出了 prompt-tuning，它仅将错误反向传播到 soft prompt（即，预先添加到 PLM 输入的一系列连续向量），而不是整个模型。他们表明，及时调整足以与完整的模型调整竞争，同时显着减少要调整的参数数量。因此，快速调优非常适合解决上述低资源生成微调中的过拟合问题，在保证生成质量的前提下，相对于小标记数据产生更多新样本。

基于此，作者提出了一种基于 prompt 的数据增强方法。这种方式固定住整个预训练模型的参数，仅仅调整 soft prompt 的相关参数。此外，我们观察到 soft prompt 的初始化对微调有显着影响，尤其是在资源不足的情况达到极端程度时。为了更好地初始化数据增强任务的提示参数，我们提出了与任务无关的 Synonym Keyword to Sentence 预训练任务，以直接在其预训练语料库上预训练 PLM 的提示参数。

此任务模拟从部分片段信息（例如关键字）生成整个训练样本的过程。与之前的工作类似，我们可以微调 PLM 以生成以输出标签为条件的完整合成数据。我们将此称为输出视图生成。为了提高生成样本的多样性，我们引入了另一个名为 Input View Generation 的微调生成任务，它将从样本中提取的关键字作为输入，将样本作为输出。由于从小训练数据训练的 NLG 模型仍有一定机会生成低质量样本，我们利用 NLU 一致性过滤来过滤生成的样本。

我们在四个基准上进行了实验，实验结果表明，在来自 PromDA 的合成数据上训练的 NLU 模型始终优于几个竞争基线模型，包括最先进的半监督 NLU 模型 MetaST。此外，我们发现来自 PromDA 的合成数据也与未标记的域内数据互补。当两者结合时，NLU 模型的性能可以进一步提高。最后，我们进行了多样性分析和案例研究，以进一步确认 PromDA 的合成数据质量。

Prompt-based Data Augmentation

如上图所示，整个数据增强包括三个部分：

（1）prompt-based learning

（2）持续的合成数据生成视图

（3）一致性过滤

在正式描述文中提出的方法之前，先对数据增强这个任务进行定义。数据增强就是在已有的少量有标注的样本的情况下，合成大量有标注的训练数据。最终模型进行训练任务时，将使用这两部分数据。

3.1 Prompt-based learning

作者这里选择了使用 soft prompt 的方式。具体来说，作者在训练的时候将任务描述都换成 soft prompt；训练的时候当然也只更新这一部分的参数。不同于只在输入层加参数的做法，作者在每一层 transformer 上都加了一层 MLP 作为 soft prompt 部分参数学习。具体来说，每一层的隐状态可以表示如下：