题目: 文本摘要简述
简介:
随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降 维”处理显得非常必要,文本摘要便是其中一个重要的手段。文本摘要旨在将文本或文本集合转换 为包含关键信息的简短摘要。 文本摘要按照输入类型可分为单文档摘要(Single document)和多文档摘要(Multiple document)。单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中 生成摘要。与单文档摘要相比,多文档摘要面临的减小句子冗余度、确定句子顺序、确定压缩比 率 (从每个文档中抽取句子的比例)、指代消解问题都更加的突出。按照输出类型可分为抽取式摘要 (Extractive)和生成式摘要(Abstractive)。抽取式摘要从源文档中抽取关键句和关键词组成摘要, 摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。按照目的可以 分为查询无关摘要(Generic)和查询相关摘要(Queryfocused)。查询无关摘要是对一个文档做整体 性摘要,而查询相关摘要是根据用户查询语句表达的信息需求 (Information need) 来对一篇文档做 出摘要总结。按照有无监督数据可以分为有监督摘要(Supervised)和无监督摘要(Unsupervised)。 本文主要关注单文档、查询无关、有监督、抽取式、生成式摘要。对目前常见的文本摘要方法 进行简要概述。