【神经语言生成：形式化，方法与评价，70页pdf】

2020 年 8 月 9 日 专知

摘要

基于神经网络的生成式模型的最新进展重新燃起了计算机系统能够与人类无缝对话并能够理解自然语言的希望。神经结构被用于生成文本摘录，在满足不同用户需求的多种上下文和任务中取得了不同程度的成功。值得注意的是，在大规模数据集上训练的高容量深度学习模型显示出无与伦比的能力，即使在缺乏明确的监督信号的情况下，也能在数据中学习模式，这为生成现实和连贯的文本提供了大量新的可能性。虽然自然语言生成领域正在迅速发展，但仍有许多开放的挑战需要解决。在这篇综述中，我们正式地定义和分类自然语言生成的问题。我们回顾了这些通用公式的实例化的特定应用程序任务，在这些任务中生成自然语言是非常重要的。接下来，我们涵盖了用于生成不同文本的方法和神经存档的全面的总结。然而，这些生成式模型产生的文本质量并没有一个标准的评价方法，这是该领域发展的一个严重瓶颈。为此，我们还回顾了当前评估自然语言生成系统的方法。我们希望这篇综述将提供一个公式，方法，和神经自然语言生成的评估信息概述。

介绍

最近在深层生成式模型和表征学习方面的成功导致了自然语言生成(NLG)方面的重大进展，其动机是越来越需要理解和派生语言的意义。文本生成的研究领域是自然语言处理的基础，其目标是生成真实可信的文本内容，与人类书写的文本没有区别 (Turing, 1950)。从广义上讲，在给定语境下，预测连续词在句法和语义上的正确顺序需要两个步骤:首先从给定语料库中估计句子的分布情况，然后从已学习得到的语料中抽取新颖和真实的句子。理想情况下，生成的句子保留了真实世界句子的语义和句法属性，并且不同于用于估计模型的训练示例(Zhang et al.， 2017b)。语言生成是一项内在复杂的任务，需要大量的语法、语义、形态、音韵、语用等多层次的语言学和领域知识。此外，文本生成是为了实现一个交流目标(Reiter, 2019)，例如在决策过程中提供支持、总结内容、在语言之间进行翻译、与人交谈、使特定文本更容易理解，以及娱乐用户或鼓励他们改变行为。因此，生成的文本应该根据内容和使用的术语的适当性，以及出于公平和透明度的原因(Mayfield et al.， 2019)，针对特定受众量身定制(Paris, 2015)。长期以来，自然语言生成模型都是基于规则的，或者依赖于在稀疏的高维特征上训练浅层模型。随着最近神经网络的复苏，基于密集向量表示训练的文本生成神经网络模型已经建立了无与伦比的先前表现，重新点燃了机器能够理解语言并与人类无缝对话的希望。事实上，生成有意义和连贯的文本是许多自然语言处理任务的关键。然而，由于文本数据的离散性，设计能够生成连贯文本并建立长期依赖关系模型的神经网络一直是自然语言生成的挑战。除此之外，神经网络模型理解语言和基础文本概念的能力，除了从数据中提取浅层的模式，仍然是有限的。最后，自然语言生成模型的评价是一个同样活跃和具有挑战性的研究领域，对推动该领域的发展具有重要意义。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“NLGFME” 可以获取《【神经语言生成：形式化，方法与评价，70页pdf】》专知下载链接索引

专 · 知

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程视频资料和与专家交流咨询！

点击“阅读原文”，了解使用专知，查看5000+AI主题知识资料

登录查看更多

相关内容

自然语言生成

关注 17

自然语言生成（NLG）是自然语言处理的一部分，从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时，心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。NLG出现已久，但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向：自然语言理解系统须要厘清输入句的意涵，从而产生机器表述语言；自然语言生成系统须要决定如何把概念转化成语言。

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

专知会员服务

74+阅读 · 2020年9月25日

最新《深度持续学习》综述论文，32页pdf

专知会员服务

182+阅读 · 2020年9月7日

【干货书】管理统计和数据科学原理，678页pdf

专知会员服务

185+阅读 · 2020年7月29日

现代机器学习技术导论，596页pdf

专知会员服务

167+阅读 · 2020年7月27日