项目名称: 面向微博数据流的事件主线挖掘技术研究

项目编号: No.61303156

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 杜攀

作者单位: 中国科学院计算技术研究所

项目金额: 26万元

中文摘要: 微博信息具有更新快、长度短、碎片化、多而杂和大量冗余的特点,这些特点带来了三个问题:(1)信息过载(2)信息碎片(3)信息冗余。事件主线(Storyline)使用有限的几条微博就能够描述新闻事件发展的所有关键片段(Episode),是解决上述问题的有效途径。面向微博数据流的事件主线挖掘技术,主要面临如下几个挑战:(1)高维稀疏的微博数据带来的相似关系计算问题(2)事件关键片段的事件相关性目标、内容重要性目标、信息差异性目标的优化平衡。(3)海量微博流式更新对主线识别算法性能的挑战。针对上述挑战,本课题从分析利用微博数据丰富的关联关系入手,将事件主线识别问题归结为基于关系流形的多目标排序问题,并研究应对微博数据流式更新的增量式多目标排序算法。本课题的研究立足于面向微博数据流的事件主线挖掘,既有重要的研究价值,又有广阔的应用前景,将为网络舆情分析、自动文摘、产业调研等应用提供关键技术支持。

中文关键词: 事件主线挖掘;关键片段识别;主线更新;微博流数据;子话题标签生成

英文摘要: Information on the microblog is usually short, fragmentary, abundant, noisy, and heavily repeated, which causes three serious problems: 1) information overload, 2) information fragmentation, and 3)information redundant. Event Storyline selects several microblog posts out to represent all the episodes during the event development, hence is a great way to solve the problems above. There are mainly three challenges for mining event storyline on microblogging stream: 1) The data sparsity and high dimensionality causes poor performance on similarity measurement, 3) The balance of relevance, prestige and diversity in episode mining is non-trival, 3) The constantly updated microblog data requirs a more efficient mining algorithm to update the storyline correspondingly. Focusing on the chanllenges described above, we propose to make full use of the rich relationships among microblog posts to learn a similarity metric, then adopt an incremental multi-objective ranking algorithm to identify the posts which can represent the important episodes during event development. Our study focuses on mining event storylines on microblogging streams. It gives support to many important applications such as online public opinion analysis, automatic summarization, industry survey and so on.

英文关键词: Storyline Mining;Key Episode Recognition;Storyline Update;Microblog Stream;Subtopic Tag Generation

成为VIP会员查看完整内容
0

相关内容

面向知识图谱的知识推理综述
专知会员服务
149+阅读 · 2021年11月1日
专知会员服务
34+阅读 · 2021年9月5日
专知会员服务
20+阅读 · 2021年7月19日
专知会员服务
124+阅读 · 2021年6月12日
专知会员服务
29+阅读 · 2021年6月4日
专知会员服务
27+阅读 · 2021年2月17日
专知会员服务
193+阅读 · 2020年10月14日
科技大数据知识图谱构建方法及应用研究综述
专知会员服务
134+阅读 · 2020年8月12日
面向大数据领域的事理认知图谱构建与推断分析
专知会员服务
103+阅读 · 2020年8月11日
【TPAMI2022】关联关系驱动的多模态分类
专知
3+阅读 · 2022年3月22日
事理图谱:事件演化的规律和模式
哈工大SCIR
34+阅读 · 2019年7月19日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
Python用法速查网站
Python程序员
17+阅读 · 2018年12月16日
已删除
将门创投
10+阅读 · 2018年5月2日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月17日
Chinese Idiom Paraphrasing
Arxiv
0+阅读 · 2022年4月15日
AliCoCo: Alibaba E-commerce Cognitive Concept Net
Arxiv
13+阅读 · 2020年3月30日
Arxiv
110+阅读 · 2020年2月5日
小贴士
相关VIP内容
面向知识图谱的知识推理综述
专知会员服务
149+阅读 · 2021年11月1日
专知会员服务
34+阅读 · 2021年9月5日
专知会员服务
20+阅读 · 2021年7月19日
专知会员服务
124+阅读 · 2021年6月12日
专知会员服务
29+阅读 · 2021年6月4日
专知会员服务
27+阅读 · 2021年2月17日
专知会员服务
193+阅读 · 2020年10月14日
科技大数据知识图谱构建方法及应用研究综述
专知会员服务
134+阅读 · 2020年8月12日
面向大数据领域的事理认知图谱构建与推断分析
专知会员服务
103+阅读 · 2020年8月11日
相关资讯
【TPAMI2022】关联关系驱动的多模态分类
专知
3+阅读 · 2022年3月22日
事理图谱:事件演化的规律和模式
哈工大SCIR
34+阅读 · 2019年7月19日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
Python用法速查网站
Python程序员
17+阅读 · 2018年12月16日
已删除
将门创投
10+阅读 · 2018年5月2日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员