最近在深层生成式模型和表征学习方面的成功导致了自然语言生成(NLG)方面的重大进展,其动机是越来越需要理解和派生语言的意义。文本生成的研究领域是自然语言处理的基础,其目标是生成真实可信的文本内容,与人类书写的文本没有区别(Turing, 1950)。从广义上讲,在给定语境下,预测连续词在句法和语义上的正确顺序需要两个步骤:首先从给定语料库中估计句子的分布情况,然后从已学习得到的语料中抽取新颖和真实的句子。理想情况下,生成的句子保留了真实世界句子的语义和句法属性,并且不同于用于估计模型的训练示例(Zhang et al., 2017b)。语言生成是一项内在复杂的任务,需要大量的语法、语义、形态、音韵、语用等多层次的语言学和领域知识。此外,文本生成是为了实现一个交流目标(Reiter, 2019),例如在决策过程中提供支持、总结内容、在语言之间进行翻译、与人交谈、使特定文本更容易理解,以及娱乐用户或鼓励他们改变行为。因此,生成的文本应该根据内容和使用的术语的适当性,以及出于公平和透明度的原因(Mayfield et al., 2019),针对特定受众量身定制(Paris, 2015)。长期以来,自然语言生成模型都是基于规则的,或者依赖于在稀疏的高维特征上训练浅层模型。随着最近神经网络的复苏,基于密集向量表示训练的文本生成神经网络模型已经建立了无与伦比的先前表现,重新点燃了机器能够理解语言并与人类无缝对话的希望。事实上,生成有意义和连贯的文本是许多自然语言处理任务的关键。然而,由于文本数据的离散性,设计能够生成连贯文本并建立长期依赖关系模型的神经网络一直是自然语言生成的挑战。除此之外,神经网络模型理解语言和基础文本概念的能力,除了从数据中提取浅层的模式,仍然是有限的。最后,自然语言生成模型的评价是一个同样活跃和具有挑战性的研究领域,对推动该领域的发展具有重要意义。