自然语言生成经过几十年的发展,已经成为人工智能和自然语言处理的重要研究领域。最早的自然语言生成系统采用规则、模板的方法,设计各司其职的模块进行文本生成,其中体现了很多专家设计的词汇、语法、句法甚至语用的语言学知识。统计语言模型则从概率统计的角度提出了语言建模的新思路,将词汇与上下文的依赖关系编码在条件概率中。以深度学习模型为基本架构的现代语言生成模型绝大多数通过端到端训练的方式,能更好地建模词汇与上下文之间统计共现关系,显著地提升了文本生成的性能。特别是以Transformer为基础架构的预训练语言生成模型,能够较好地捕获包括词汇、语法、句法、语义等各层面的语言学知识,极大地推动了自然语言生成的进展,生成效果令人惊叹。
• 自然语言生成(NLG)是自然语言处理的一个子领域
• 专注于构建系统,自动生成连贯和有用的书面或口头文本供人类使用
• NLG系统已经在改变我们生活的世界……