项目名称: 基于网络异构文本数据融合的热点话题发现及其内容摘要研究

项目编号: No.61273278

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 李素建

作者单位: 北京大学

项目金额: 80万元

中文摘要: 热点话题发现及内容摘要是具有实际应用价值的研究课题。但热点话题发现、话题内容摘要往往作为两项独立的研究,通常采用单一类型语料,且算法难以有新突破。由此本申请提出融合新闻网站、维基、微博等异构网络数据,将热点话题发现和话题内容摘要两项任务结合起来。研究内容包括:(1)基于多维度标注的异构文本数据融合。研究如何从时间、篇章、内容、用户等维度对文本进行标注,在注意的特征整合理论指导下对数据进行融合;(2)基于融合数据的热点话题发现和追踪。研究利用融合数据在各个维度的特征进行话题分析和结构表示,结合用户和媒体的关注度计算话题的热点度,并研究如何利用话题结构收集热点话题相关的描述文档;(3)基于维基数据的热点话题内容摘要。鉴于维基平台具有领域全面性、对已发生的热点话题给出综述的特点,研究如何利用同类话题的维基文档集合挖掘话题内容表达的共性,获取话题模板以改善摘要性能,从而突破基于句子抽取的摘要方法。

中文关键词: 社会媒体;话题发现;自动摘要;篇章分析;深度学习

英文摘要: It is fundamental and practical to detect and summarize hot topics. However, the state-of-the-art researches always take hot topic detection and automatic summarization as two independent tasks, both of which make little improvement on proposing new methodology in recent years and are mainly relying on a single type of corpus. Thus, we propose to fuse the hetero-structural text streams from news websites, Wikimedia and microblog platforms, and simultaneously merge the tasks of hot topic detection and automatic summarization. This proposal will include the following three aspects: (1) To research on hetero-structural text data fusion based on multi-dimension labeling and indexing. Some dimensions such as time, discourse, content and user will be designed for the text labeling, and the feature integration theory of attention will be introduced to guide the data fusion. (2) To research on the topic detection and tracking based on the fused data. We will investigate and research how to represent and analyze one topic according to the multi-dimension labeling results. Then the hotness degree of one topic needs to be measured with the consideration of both public concern and media concern. Furthermore, the related documents which describe the hot topics are collected using the corresponding topic structure. (3) To res

英文关键词: Social media;Topic detection;Automatic summarization;Discourse parsing;Deep learning

成为VIP会员查看完整内容
0

相关内容

【计算所&清华等新书】预训练方法信息检索,109页pdf
专知会员服务
64+阅读 · 2021年11月30日
专知会员服务
16+阅读 · 2021年8月24日
北航《深度学习事件抽取》文献综述和当前趋势
专知会员服务
83+阅读 · 2021年7月6日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
54+阅读 · 2021年4月20日
【WWW2021】基于图神经网络的社交好友排序
专知会员服务
48+阅读 · 2021年2月3日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
异质图嵌入综述: 方法、技术、应用和资源
专知会员服务
46+阅读 · 2020年12月13日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
基于深度学习的多标签生成研究进展
专知会员服务
140+阅读 · 2020年4月25日
文本情感分析方法研究综述
专知
4+阅读 · 2021年4月20日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
热点! 虚假新闻检测综述
专知
111+阅读 · 2019年2月26日
图像检索研究进展:浅层、深层特征及特征融合
中国计算机学会
122+阅读 · 2018年3月26日
聊聊“事件抽取” | 每周话题精选 #05
PaperWeekly
24+阅读 · 2017年7月11日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Knowledge Embedding Based Graph Convolutional Network
Arxiv
24+阅读 · 2021年4月23日
小贴士
相关VIP内容
【计算所&清华等新书】预训练方法信息检索,109页pdf
专知会员服务
64+阅读 · 2021年11月30日
专知会员服务
16+阅读 · 2021年8月24日
北航《深度学习事件抽取》文献综述和当前趋势
专知会员服务
83+阅读 · 2021年7月6日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
54+阅读 · 2021年4月20日
【WWW2021】基于图神经网络的社交好友排序
专知会员服务
48+阅读 · 2021年2月3日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
异质图嵌入综述: 方法、技术、应用和资源
专知会员服务
46+阅读 · 2020年12月13日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
基于深度学习的多标签生成研究进展
专知会员服务
140+阅读 · 2020年4月25日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员