【博士论文】面向文本生成的深度序列模型研究

2020 年 12 月 20 日 专知

来自中科院计算所张儒清的博士论文，入选2020年度“CCF优秀博士学位论文奖”初评名单！

https://www.ccf.org.cn/Focus/2020-12-03/717578.shtml

面向文本生成的深度序列模型研究

人工智能走向成熟的一个重要标志是赋予计算机“说话” 的能力，实现文本的自动生成。文本生成范围很广，按照不同的输入划分，可包括图像到文本的生成、音频到文本的生成、数据到文本的生成以及文本到文本的生成。其中，文本到文本的生成旨在分析理解输入文本，撰写得到新的自然语言文本。文本到文本生成技术广泛应用在智能编辑、智能助理、人机对话等领域，悄然融入到人们的日常生活中，也成为学术界研究的热点。

文本到文本的生成可以看做是将承载原始信息的文本转变成符合用户真实信息需求的文本。本文根据信息变换方式的不同，将文本到文本的生成划分成三类任务：压缩式生成、对等式生成和多样化生成。其中压缩式生成将文本或文本集合压缩成简明扼要的内容；对等式生成中输入文本和输出文本在语义上具有一一对应性；多样化生成中输入文本和输出文本在语义上存在着多种对应关系。近年来，随着深度学习的崛起，利用深度序列模型，实现序列到序列的学习已然成为文本到文本生成研究领域的主流。基于深度序列建模的文本到文本生成主要包含三个环节：输入文本的语义理解，输入信息到输出信息的映射，以及输出文本的建模。基于此，本文研究了面向文本生成的深度序列建模过程中三个关键性的挑战问题：1）输入文本的语义繁杂性；2）输入文本和输出文本间的映射多样性；3）输出文本的结构复杂性。

首先，针对语义繁杂性问题，本文提出了两种利用深度学习技术进行语义精简表征的算法。首先，从无监督方式利用词向量表达文档语义的角度，本文提出了基于聚合和基于生成的文档表征模型。传统的词向量袋模型无法刻画单词间的语义关联性，并且缺乏合理的概率统计基础。针对这两个问题，本文设计了一个词向量聚合框架，利用球上连续概率分布建模词向量间的余弦相似度，以及一个基于词向量的概率生成模型，同时建模文本和单词的生成。其次，从有监督方式直接利用神经网络端到端建模文本生成的角度，针对压缩式生成中输入文本较长带来的复杂语义理解问题，本文设计了层次化的表征模型，捕捉文档中的层次组成结构。句子是关于长文档核心主题的更主要的载体。但是，现有的工作平等地对待每个句子，并未考虑不同句子所起作用的不同。针对此问题，本文提出了自我注意力机制，自动学习不同句子的权重，以组合得到最终的文档表达。实验结果验证了本文提出的模型在繁杂语义的精简表征能力上的有效性。

然后，针对映射多样性问题，本文提出了基于显式的控制变量来帮助学习映射关系的模型。现有工作仅用单模型来学习映射关系，因此只适用于对等式生成，在多样化生成中失败。针对此问题，本文直接面向对话任务，解决 “话语-回复” 间一对多的具体化映射关系导致单模型倾向生成高频回复的问题。本文提出了一种新的可控回复生成机制，将具体化控制变量引入到深度序列模型中，并通过高斯核层与单词的使用表达相互作用，以指导模型生成不同具体化程度下的回复。当变量设为固定值时，模型刻画的就是一对一关系，适用于对等式生成。实验结果证明，本文所提模型可以有效地控制目标文本的生成。

最后，针对结构复杂性问题，本文分别从非结构化文本和结构化文本两个角度对输出文本进行了研究。首先，针对非结构化文本中疑问句存在的疑问模式，本文在基于自我注意力机制的深度序列模型中，引入疑问词词表，并在非疑问词和疑问词词表上使用词表选择机制，以更好地学习疑问句模式。其次，相比于非结构化文本，结构化文本能够更有条理地组织信息，然而鲜有人关注结构化文本的生成，比如提纲、信息表和报表等。因此，本文提出了提纲生成任务，识别多段落文档中潜在的章节并生成相应的章节标题，并将其形式化为层次化的结构预测问题，提出了层次化的结构生成模型，捕捉三个级别的一致性。实验证实，本文所提模型不仅可以捕捉文本的内在复杂结构，并且可以显著提升生成效果。

综上所述，本文研究了压缩式生成、对等式生成以及多样化生成三类文本到文本的生成任务，在深度序列建模的三个环节，理解、映射以及建模上的问题，并相应的提出了多个新颖的深度模型，在公开的评测数据集上对各个模型的性能进行了验证。