可控文本生成(CTG)是自然语言生成(NLG)领域中的新兴领域。这被视为发展高级文本生成技术的关键,更好地满足实际应用中的特定约束。近年来,使用大规模预训练语言模型(PLMs),特别是广泛使用的基于Transformer的PLMs,已经成为NLG的新范式,允许生成更多样化和流利的文本。然而,由于深度神经网络的可解释性水平有限,这些方法的可控性需要得到保证。为此,使用基于Transformer的PLMs进行可控文本生成已成为一个快速发展但具有挑战性的新研究热点。在过去的3-4年中,已经出现了各种各样的方法,针对需要不同类型的受控约束的不同CTG任务。在本文中,我们对这一领域的常见任务、主要方法和评估方法进行了系统的批判性综述。最后,我们讨论了该领域面临的挑战,并提出了各种有前景的未来方向。据我们所知,这是第一篇从基于Transformer的PLMs的角度总结最先进的CTG技术的综述论文。我们希望它能帮助相关领域的研究人员和从业人员快速追踪学术和技术前沿,为他们提供该领域的全景图和未来研究的路线图。
自然语言生成(NLG)被视为自然语言理解(NLU)的补充,是自然语言处理(NLP)的一个重要分支。与NLU的任务相反,NLU旨在消除输入文本的歧义,产生文本中所表达的思想的单一标准化表示,而NLG主要关注将潜在表示转换为特定的、自洽的自然语言文本[47]。换句话说,NLU旨在开发能够阅读和理解人类语言的智能机器,而NLG使计算机能够像人类一样写作。作为先进人工智能的一种体现,NLG技术在一系列应用中发挥着关键作用,例如对话系统、广告、市场营销、故事生成和数据增强。
在NLG中实现文本生成的可控制性是一个重要且基本的问题。图1中展示了一些具体的例子。一般来说,一个NLG系统应该能够可靠地生成满足目标应用和用户施加的某些可控制约束的文本。一般来说,这些约束是特定于任务的。例如,故事生成的任务总是需要控制故事情节和结局。在对话响应生成的任务中,经常需要控制情绪[67]、人格[160]和礼貌等。对于基于生成的数据增强[42],必须确保不同领域中的数据分布平衡。而且,对于AI应用的道德发展[6],避免生成无意识和攻击性的内容,如性别偏见、种族歧视和有毒的词,是至关重要的。因此,一个NLG系统的可控制性对于它在实际应用中生成显著实际价值是至关重要的。近年来,深度学习(DL)的发展催生了一系列关于DL驱动的可控文本生成(CTG)的研究,这为这一领域带来了真正的突破。早期的方法基于顺序模型和风格嵌入[34,65],取得了一些有前景的进展。之后,基于深度生成模型的方法激增,例如变分自编码器(VAEs)[48, 125, 138, 142, 149, 154],生成对抗网络(GANs)[117, 140],和能量基础模型[8, 25, 135, 166]。基于深度学习的方法能够以数据驱动的方式进行端到端学习,学习能够隐式表示文本语言特征的低维度稠密向量。这种表示也有助于避免手工特征的偏见,而且在文本生成中显示出巨大的潜力。
然而,上述基于DL的方法的成功在很大程度上依赖于大规模数据集,这对于监督和跨领域文本生成任务提出了挑战。自2018年以来,例如BERT[27],RoBERTa[82],GPT[107],T5[108]和mBART[80]等大规模预训练语言模型(PLMs)逐渐成为NLP的新范式。由于使用了大量语料库和基于Transformer结构的无监督学习,人们相信PLMs从数据中学到了大量的语义和句法知识,而下游任务只需要进行微调就可以获得最先进(SOTA)的性能。在NLG方面,PLMs从大量的语料材料中学习,以很大程度上模拟自然语言的分布,因此它们能够生成前所未有的高质量文本[25]。而且,大规模的PLM本身可以被视为一个消息丰富的知识库,使得生成文本无需外部领域知识。尽管如此,PLMs基于神经网络,本质上仍然是黑箱,缺乏良好的可解释性。这些模型总是根据上下文的潜在表示生成文本。因此,很难控制它们按照人类的意愿生成内容(即,可控性问题)。如何提高基于PLM模型的可解释性和可控性,以生成文本已成为一个热门的研究话题。
在上述应用和研究背景下,基于PLMs的方法正在成为可控文本生成(CTG)研究的主流,有望带来里程碑式的进展。作为一个迅速增长但充满挑战的研究领域,亟需对当前的文献进行全面的批判性回顾,以绘制该领域的全貌,并为有前途的未来方向提出一条路线图。已经有一些关于CTG的调查[100],但它们缺少(1)CTG的代表性应用任务、主要方法和评估方法的系统性回顾;(2)对最新的大规模基于PLM的CTG方法的追踪。在本文中,我们提供了一个关于与CTG相关的主要任务和评估指标的介绍,对使用PLMs的CTG方法进行了详细而全面的文献回顾,最后,对可能的未来研究方向提出了展望。我们希望这篇调查论文将帮助研究人员和从业人员快速捕捉到基于PLM的CTG的整体画面以及详细的前沿方法,并促进这一有前途的领域的进一步发展。
本文的其余部分按照如下组织:第2部分简要介绍了该领域的两个关键方面,即CTG和PLMs的基本概念。然后,我们将基于PLM的CTG的主要方法分为三类,并在第3部分更详细地讨论它们。第4部分总结了CTG的相关评估方法和指标。在第5部分,我们讨论了该领域正在面临的挑战,并提出了一些有前途的未来方向。最后,我们在第6部分结束本文。本文中出现的所有文献都遵循两个规则。首先,我们倾向于选择最近3-4年内出现的最新论文,以确保调查工作的时效性。其次,我们更倾向于选择在NLP社区有影响力的工作,例如,在NLP领域的顶级会议或期刊上发表的论文,如ACL,EMNLP,NAACL和TACL;以及在开源社区中得到广泛关注或被高度引用的工作。
基于PLM的CTG主要方法
从生成的角度来看,PLM已从大规模语料库中学到了各种知识,这可以帮助产生更流利和更丰富多样的文本,为自然语言生成提供了一种有效的方式。然而,现有的PLM本质上还是像其他深度神经网络一样的黑箱模型,缺乏文本生成过程的可解释性和可控制性。如何在实现生成模型的可控性的同时,充分利用PLM进行文本生成,最近已成为一个热门的研究课题。在本节中,我们将从基于Transformer的PLM用于CTG的角度,对该领域的主要方法进行全面的回顾。
基于PLM的CTG的核心思想是以显式或隐式的方式给模型一个控制信号,来驱动满足控制条件的文本生成。根据控制信号的作用方式,我们大致将现有的方法分为三个类别,每个类别进一步分为几个子类。在图4中给出了一个概述。最直接的方法是微调PLM,这可以以较低的成本执行CTG任务。第二种方法是为CTG重新训练或重构PLM。原则上,这种方法可能产生更好的结果,但可能消耗更多的计算资源,也面临着缺乏标记数据的问题。随着PLM的参数大小迅速增加,即使是微调也变得资源密集。为了解决这些问题,第三类文本生成方法,即在解码时间工作的后处理方法,已经出现。在后处理方法中,PLM始终是固定的,控制信号在解码阶段工作。这样的方法不仅需要较少的计算资源进行训练,而且在一定程度上也能保证生成文本的更好质量。因此,近年来学术界对这个方向的关注正在增加。在以下几节中,我们将更详细地回顾与这三种类型的方法相关的最近文献。评价方法自然语言生成(NLG)模型的性能由适当的评估指标来反映。由于需要满足控制元素,可控文本生成(CTG)与一般的NLG任务略有不同。因此,CTG不仅关注生成文本的质量,还关注生成文本是否满足控制元素。因此,我们通常使用一般和CTG特定的指标来评估CTG模型。对于任何CTG模型,评估生成文本的一般质量是至关重要的,例如:1)流利度:输出文本中的语言有多流利[12, 31],2)事实性:生成的文本在多大程度上反映了上下文中描述的事实[46, 146],3)语法:生成的文本在语法上是否正确,4)多样性:生成的文本是否具有多种类型或风格的范围。这些一般评价方面的测量方法可以基于执行评估的对象(如图7所示)分为三类:人类或机器。
结论在这篇论文中,我们全面总结了基于大型预训练语言模型的可控文本生成的典型应用、主要方法和评估方法。通过对现有方法的关键分析,我们识别了该领域的一系列关键挑战,并突出了几个有前途的未来方向。大型预训练语言模型为可控文本生成技术的发展带来了前所未有的机会,呼吁更多的研究人员加入该领域,开创新时代。我们希望这篇文献综述能够为研究人员和从业人员提供该领域的清晰图景,并为他们前进设定路线图。