摘要

基于神经网络的生成式模型的最新进展重新燃起了计算机系统能够与人类无缝对话并能够理解自然语言的希望。神经结构被用于生成文本摘录,在满足不同用户需求的多种上下文和任务中取得了不同程度的成功。值得注意的是,在大规模数据集上训练的高容量深度学习模型显示出无与伦比的能力,即使在缺乏明确的监督信号的情况下,也能在数据中学习模式,这为生成现实和连贯的文本提供了大量新的可能性。虽然自然语言生成领域正在迅速发展,但仍有许多开放的挑战需要解决。在这篇综述中,我们正式地定义和分类自然语言生成的问题。我们回顾了这些通用公式的实例化的特定应用程序任务,在这些任务中生成自然语言是非常重要的。接下来,我们涵盖了用于生成不同文本的方法和神经存档的全面的总结。然而,这些生成式模型产生的文本质量并没有一个标准的评价方法,这是该领域发展的一个严重瓶颈。为此,我们还回顾了当前评估自然语言生成系统的方法。我们希望这篇综述将提供一个公式,方法,和神经自然语言生成的评估信息概述。

介绍

最近在深层生成式模型和表征学习方面的成功导致了自然语言生成(NLG)方面的重大进展,其动机是越来越需要理解和派生语言的意义。文本生成的研究领域是自然语言处理的基础,其目标是生成真实可信的文本内容,与人类书写的文本没有区别 (Turing, 1950)。从广义上讲,在给定语境下,预测连续词在句法和语义上的正确顺序需要两个步骤:首先从给定语料库中估计句子的分布情况,然后从已学习得到的语料中抽取新颖和真实的句子。理想情况下,生成的句子保留了真实世界句子的语义和句法属性,并且不同于用于估计模型的训练示例(Zhang et al., 2017b)。语言生成是一项内在复杂的任务,需要大量的语法、语义、形态、音韵、语用等多层次的语言学和领域知识。此外,文本生成是为了实现一个交流目标(Reiter, 2019),例如在决策过程中提供支持、总结内容、在语言之间进行翻译、与人交谈、使特定文本更容易理解,以及娱乐用户或鼓励他们改变行为。因此,生成的文本应该根据内容和使用的术语的适当性,以及出于公平和透明度的原因(Mayfield et al., 2019),针对特定受众量身定制(Paris, 2015)。长期以来,自然语言生成模型都是基于规则的,或者依赖于在稀疏的高维特征上训练浅层模型。随着最近神经网络的复苏,基于密集向量表示训练的文本生成神经网络模型已经建立了无与伦比的先前表现,重新点燃了机器能够理解语言并与人类无缝对话的希望。事实上,生成有意义和连贯的文本是许多自然语言处理任务的关键。然而,由于文本数据的离散性,设计能够生成连贯文本并建立长期依赖关系模型的神经网络一直是自然语言生成的挑战。除此之外,神经网络模型理解语言和基础文本概念的能力,除了从数据中提取浅层的模式,仍然是有限的。最后,自然语言生成模型的评价是一个同样活跃和具有挑战性的研究领域,对推动该领域的发展具有重要意义。

成为VIP会员查看完整内容
35

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
72+阅读 · 2020年9月25日
【斯坦福大学】矩阵对策的协调方法,89页pdf
专知会员服务
24+阅读 · 2020年9月18日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
84+阅读 · 2020年9月6日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
176+阅读 · 2020年7月29日
专知会员服务
159+阅读 · 2020年7月27日
【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
21+阅读 · 2020年6月30日
专知会员服务
214+阅读 · 2020年5月6日
图神经网络表达能力的研究综述,41页pdf
专知会员服务
167+阅读 · 2020年3月10日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
自然语言处理常识推理综述论文,60页pdf
专知
69+阅读 · 2019年4月4日
深度学习对话系统理论篇--数据集和评价指标介绍
黑龙江大学自然语言处理实验室
7+阅读 · 2018年5月10日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
用于神经机器翻译的全并行文本生成
全球人工智能
7+阅读 · 2017年11月13日
Arxiv
14+阅读 · 2020年1月27日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
VIP会员
相关VIP内容
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
72+阅读 · 2020年9月25日
【斯坦福大学】矩阵对策的协调方法,89页pdf
专知会员服务
24+阅读 · 2020年9月18日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
84+阅读 · 2020年9月6日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
176+阅读 · 2020年7月29日
专知会员服务
159+阅读 · 2020年7月27日
【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
21+阅读 · 2020年6月30日
专知会员服务
214+阅读 · 2020年5月6日
图神经网络表达能力的研究综述,41页pdf
专知会员服务
167+阅读 · 2020年3月10日
相关资讯
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
自然语言处理常识推理综述论文,60页pdf
专知
69+阅读 · 2019年4月4日
深度学习对话系统理论篇--数据集和评价指标介绍
黑龙江大学自然语言处理实验室
7+阅读 · 2018年5月10日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
用于神经机器翻译的全并行文本生成
全球人工智能
7+阅读 · 2017年11月13日
微信扫码咨询专知VIP会员