本文综述了近20年来自然语言生成(NLG)的研究进展,特别是数据到文本的生成和文本到文本的深度学习方法,以及NLG技术的新应用。本综述的目的是(a)给出了NLG核心任务的深度学习研究的最新综合,以及该领域采用的架构; b)对NLG的各项任务和数据集进行细致全面的细化,关注NLG评价的挑战,重点关注不同的评价方法及其关系; c) 强调由于NLG与其他人工智能领域(如计算机视觉、文本和计算创造力)日益增强的协同作用而产生的一些未来重点和相对近期的研究问题。
本文综述了自然语言生成(NLG)的研究现状,它被定义为从潜在的非语言信息表示中生成文本的任务[85]。由于其极具挑战性和广阔的应用前景,近年来受到越来越多研究者的关注。
什么是自然语言生成?
自然语言生成(NLG)是为了达到特定交流目标而生成自然语言文本的过程。生成的文本可以是回答一个问题的一个短语,通过对话中的多句注释和问题,到整页的解释。自然语言理解(NLU)的组织过程可以遵循语言学分析的传统阶段: 词法、句法、语义、语用/话语,与之相比,生成过程具有根本不同的特征。生成过程包括从内容到形式的内容规划、确定和实现,从意图和视角到线性排列的词语和句法标记。再加上它的应用、情境和话语,它们提供了在语言提供的备选词汇和结构中做出选择的基础,这是有意构建文本的主要努力[62]。由于其相反的信息流,人们可能会假设一个生成过程可以像理解过程一样组织起来,但其阶段顺序是相反的。
数据到文本的生成和文本到文本的生成都是NLG的实例。从图像生成文本是数据到文本生成的一种应用。文本到文本生成的进一步复杂化是将NLG任务分为三类,即文本缩写、文本扩展、文本重写和推理。文本缩写任务是将长文本信息压缩为短文本的任务,通常包括文本摘要[6,7,15,17,43,80,99]、问题生成[4,18,34,36,53,95,104,112,113,130,134]和干扰物生成[22,50,60,72,82,86,100,101]。文本扩展任务,如短文本扩展[5,89,96,106]和主题到短文的生成[19,81,114,123,129],通过考虑并添加连词和介词等元素,将输入的单词转换为语言正确的输出,从而生成完整的句子甚至文本。文本改写和推理任务的目标是将文本改写成另一种风格或运用推理方法生成反应。其中有两个子任务:文本风格迁移[9,20,33,58,64,69,79,120,133]和对话生成[3,35,46,49,59,115,122,135]。基于视觉的文本生成任务以生成给定图像或视频的解释或摘要为目标,涉及图像字幕[1,57,87,110,125,126],视频描述[16,39,42,72,97,103,109,111,118],视觉讲故事[30,45,124]。
在本文中,我们对不同的自然语言生成任务及其相应的数据集和方法进行了全面的回顾。综上所述,本文对自然语言生成行了广泛的研究,并做出了以下贡献:
(1) 对自然语言生成的核心任务以及该领域采用的体系结构进行了最新的综合研究;
(2) 细致、全面地详细描述自然生态生成的各种任务和数据集,关注自然生态生成评价面临的挑战,关注不同的评价方法及其相互关系。
(3) 强调由于NLG与其他人工智能领域(如计算机视觉、文本和计算创造力)日益增强的协同作用而产生的一些未来的重点和相对近期的研究问题。
本综述的其余部分组织如下。在第二节中,我们介绍了NLG的一般方法,使我们有一个全面的认识。从第3节到第6节,我们将从任务、数据和方法的角度全面介绍NLG的四个主要领域。在第7节中,我们介绍了前面提到的各种NLG任务中使用的重要评价指标。此外,在第8章中,我们提出了NLG的一些问题和挑战,以及未来的几个研究方向。最后我们在第9节结束我们的综述。
自然语言生成未来挑战
在本部分中,我们主要指出了四个值得进一步解决和研究的问题和挑战,包括评价方法、外部知识融入、可控生成和多模态情景。
评价方法仍然是自然语言生成领域一个重要而开放的研究领域。正如[12]所指出的,传统的未经训练的评价指标并不总是能够很好地与人类判断相关联,而最近的机器学习指标需要大量的人类注释,且并不总是具有良好的可迁移性。因此,在这一领域仍存在大量的挑战和改进空间。
外部知识融入-考虑到原始文本中所包含的信息有限以及生成令人满意的句子的难度[128],吸收外部知识对提高性能至关重要。因此,如何获取有用的、相关的知识,以及如何有效地吸收这些知识仍是值得研究的问题。
可控生成-另一个具有挑战性的问题是如何生成我们想要的可控自然语言。尽管在这一领域已经做了大量的工作来研究如何执行各种各样的受控文本生成,但仍然缺乏统一的范例和标准。更重要的是,对于不同的受控内容,如何衡量生成文本的可控性仍然是一个开放的问题。
多模态情景近年来,多模态情景下的各种应用研究逐渐引起了自然语言处理研究者们的关注。如何将自然语言生成方法应用于多模态场景是一个值得研究的问题,也是一个很有前途的方向。有理由相信,将丰富的多模态信息应用到自然语言生成任务中,必将进一步推动这一方向的进步和发展。