FCS 11(5) 文章 | 基于上下文语言模型的时序文本流突发热点特征挖掘

2017 年 11 月 28 日 FCS 计算机科学前沿

导读

在许多时态文本挖掘应用中,检测和使用突发热点模式(bursty pattern)来分析文本流已成为一种基本处理技术。到目前为止,大多数已有研究集中在仅基于术语频率变化进行突发热点特征的检测方法,很少有研究考虑到突发热点特征的上下文语义信息,导致检测到的突发热点特征可能是噪音或者很难解释。


本文提出了使用语言建模方法对突发热点特征的上下文建模。文章描述了估量语句级上下文和文档级上下文的语言模型的方法,并提出一个新颖的主题多样性度量标准,使用上下文模型来发现具有新闻价值的突发热点特征。


文章还阐述了使用上下文模型自动将有意义的标签分配给突发热点特征。通过在大规模新闻文章中的定量实验,证明本文提出的上下文语言模型可以有效地根据新闻价值识别有意义的突发热点特征,并且能够给出热点特征可解释的标签。


文章还使用了两个文本挖掘应用实例,定性地展示了当前研究的实用性。





文章精要





如需阅读本期推荐文章的全文,请点左下角的「阅读原文」链接。


精彩推荐


FCS 优青论坛 | MSVL:一种类型化时序逻辑程序设计语言

Xiaobing WANG, Cong TIAN, Zhenhua DUAN, Liang ZHAO

FCS 优青论坛 | 神经网络加速器研究综述

Zhen LI, Yuqing WANG, Tian ZHI, Tianshi CHEN

专题 | Smart Cities and Urban Computing

专题 | Deep Learning Applications in Computer Vision

专题 | Advances of Orange Technologies

Perspectives | Lifelong machine learning: a paradigm for continuous learning

Bing LIU

Perspectives | Urban computing: enabling urban intelligence with big data

Yu ZHENG

Perspectives | Computer Graphics 2.0: towards end-user-generated contents

Kun ZHOU





Frontiers of Computer Science



Frontiers of Computer Science 是由教育部主管、高等教育出版社和德国 Springer 公司共同出版的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为李未院士,执行主编为熊璋教授和周志华教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。




长按二维码关注Frontiers of Computer Science公众号


登录查看更多
0

相关内容

基于深度学习的手语识别综述
专知会员服务
46+阅读 · 2020年5月18日
17篇知识图谱Knowledge Graphs论文 @AAAI2020
专知会员服务
171+阅读 · 2020年2月13日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
基于统计关系学习的自动数据清洗
FCS
7+阅读 · 2019年3月1日
卷积自适应降噪自动编码器
FCS
8+阅读 · 2019年1月3日
FCS 12(1) 文章 | 知识图谱综述
FCS
8+阅读 · 2018年3月12日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
Arxiv
14+阅读 · 2018年5月15日
VIP会员
Top
微信扫码咨询专知VIP会员