Automatic text summarization aims to cut down readers time and cognitive effort by reducing the content of a text document without compromising on its essence. Ergo, informativeness is the prime attribute of document summary generated by an algorithm, and selecting sentences that capture the essence of a document is the primary goal of extractive document summarization. In this paper, we employ Shannon entropy to capture informativeness of sentences. We employ Non-negative Matrix Factorization (NMF) to reveal probability distributions for computing entropy of terms, topics, and sentences in latent space. We present an information theoretic interpretation of the computed entropy, which is the bedrock of the proposed E-Summ algorithm, an unsupervised method for extractive document summarization. The algorithm systematically applies information theoretic principle for selecting informative sentences from important topics in the document. The proposed algorithm is generic and fast, and hence amenable to use for summarization of documents in real time. Furthermore, it is domain-, collection-independent and agnostic to the language of the document. Benefiting from strictly positive NMF factor matrices, E-Summ algorithm is transparent and explainable too. We use standard ROUGE toolkit for performance evaluation of the proposed method on four well known public data-sets. We also perform quantitative assessment of E-Summ summary quality by computing its semantic similarity w.r.t the original document. Our investigation reveals that though using NMF and information theoretic approach for document summarization promises efficient, explainable, and language independent text summarization, it needs to be bolstered to match the performance of deep neural methods.


翻译:自动文本总和的目的是通过减少文本文件的内容来减少阅读时间和认知努力,而不会损害其精髓。 Ergo, 信息性是由算法产生的文件摘要的主要属性, 选择能捕捉文件精髓的句子是抽取性文件总和的首要目标。 在本文中, 我们使用香农 辛普利 来捕捉判决的丰富性。 我们使用非负性矩阵系数( NMF) 来显示隐蔽空间中计算术语、 主题和句子的编码的概率分布。 我们展示了对计算成的英特罗比的理论解释, 这是拟议的E- Summ 算法的基础, 是用于提取文件精选文件精选的不超超超超超导性的文件摘要。 计算法系统系统地应用信息性能原则从文件中选取信息性句子, 并且可以实时使用非负性的文件总和可变数方法对文件语言进行计算。 我们从严格正性 NMFI 要素矩阵中获取的精度矩阵, E- Sudealalalalalal ass exalalal ex ex ex ex ex ex ex laction us lacurrup laviolview lacument us laview laview laview lacument laut the supal laut laut laut lautus lautus lautus lautus laut laut lautus laut lautal lautus laut laut lax laut lax labild lax lax lax lax ex lax laut laut laut laut laut laut exal ex ex ex ex ex ex ex ex ex ex ex ex ex ex ex exal exal exal exal ex ex ex ex exal labal lautal laut laut ex ex ex lautus wewe we we we we we we we we we we we we we we we we we we we we we we we we we we we

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【DeepMind】强化学习教程,83页ppt
专知会员服务
149+阅读 · 2020年8月7日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
145+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
100+阅读 · 2019年10月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
已删除
将门创投
5+阅读 · 2017年11月20日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
5+阅读 · 2017年4月12日
VIP会员
相关VIP内容
相关资讯
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
已删除
将门创投
5+阅读 · 2017年11月20日
Top
微信扫码咨询专知VIP会员