导读
在许多时态文本挖掘应用中,检测和使用突发热点模式(bursty pattern)来分析文本流已成为一种基本处理技术。到目前为止,大多数已有研究集中在仅基于术语频率变化进行突发热点特征的检测方法,很少有研究考虑到突发热点特征的上下文语义信息,导致检测到的突发热点特征可能是噪音或者很难解释。
本文提出了使用语言建模方法对突发热点特征的上下文建模。文章描述了估量语句级上下文和文档级上下文的语言模型的方法,并提出一个新颖的主题多样性度量标准,使用上下文模型来发现具有新闻价值的突发热点特征。
文章还阐述了使用上下文模型自动将有意义的标签分配给突发热点特征。通过在大规模新闻文章中的定量实验,证明本文提出的上下文语言模型可以有效地根据新闻价值识别有意义的突发热点特征,并且能够给出热点特征可解释的标签。
文章还使用了两个文本挖掘应用实例,定性地展示了当前研究的实用性。
文章精要
如需阅读本期推荐文章的全文,请点左下角的「阅读原文」链接。
Frontiers of Computer Science
Frontiers of Computer Science 是由教育部主管、高等教育出版社和德国 Springer 公司共同出版的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为李未院士,执行主编为熊璋教授和周志华教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。
长按二维码关注Frontiers of Computer Science公众号