项目名称: 面向大规模动态短文本的快速聚类及演化分析技术研究

项目编号: No.61300114

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 刘铭

作者单位: 哈尔滨工业大学

项目金额: 23万元

中文摘要: 随着信息产业的飞速发展,以社会化网络为基础的虚拟交流平台逐渐成为用户参与网络讨论、获取信息的重要工具,而其中的海量动态短文本中蕴含了丰富的知识。因此,如何对这些海量的数据进行聚类分析,进而从这些数据中获取用户关注的信息、并掌握信息的演化过程逐渐成为研究的热点。然而由海量短文本数据引入的"高维向量稀疏"和"语义相似"问题,阻碍了传统的面向长文本的聚类分析技术在其上的应用,因此本项目拟通过分布式词聚类来降低特征空间的维度,拟通过迭代的相似度计算方法来获得短文本间的语义相似度。在此基础上,本项目拟借助实现面向大规模动态短文本的快速聚类来获取信息的演化过程,并依此反映用户的关注点在不同时间段内的整体变化趋势,进而以网格量化其变化幅度,以标签揭示其变化内容。

中文关键词: 短文本快速聚类;信息演化分析;语义相似度;动态聚类;

英文摘要: Along with the fast advance of IT industry, the virtual communication platform, which forms based on social network, has gradually become an important implement for users to join in network discussion and to acquire knowledge. The massive dynamic short-texts contained by it cover plenty of information. Thus, how to cluster those massive data, and furthermore to explore useful information concerned by users from those data and to comprehend information evolutional trend, has already become a hot research domain. Unfortunately, two issues of "high-dimension and vector sparsity" and "semantic similarity" aroused by large-scale short-texts, prevent conventional clustering techniques designed for long-texts from turning to short-texts. Therefore, this application applies distributional word clustering to reduce dimension of vector space and utilizes iteratively calculating process to obtain semantic similarity between short-texts. Based on them, this application proposes a fast and dynamic clustering algorithm for large-scale short-texts, which is applied to acquire information evolutional trend in order to reflect the transfer of user's attention through different time phases. Moreover, grid structure is applied to measure the magnitude of its alteration, and labels are extracted to show the change of its content.

英文关键词: short text clustering;data evolvement analysis;semantic similarity;dynamic clustering;

成为VIP会员查看完整内容
0

相关内容

流行病数据可视分析综述
专知会员服务
25+阅读 · 2022年3月21日
面向知识图谱的知识推理综述
专知会员服务
145+阅读 · 2021年11月1日
面向数据可视化的自然语言接口: 综述论文
专知会员服务
18+阅读 · 2021年9月12日
专知会员服务
62+阅读 · 2021年7月18日
专知会员服务
106+阅读 · 2020年10月27日
专知会员服务
189+阅读 · 2020年10月14日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
58+阅读 · 2020年7月13日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
111+阅读 · 2020年4月23日
面向自动驾驶的边缘计算技术研究综述
专知
4+阅读 · 2021年5月3日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
37+阅读 · 2019年8月18日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
18+阅读 · 2018年11月27日
基于二进制哈希编码快速学习的快速图像检索
极市平台
12+阅读 · 2018年5月17日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
现代情感分析方法
Python开发者
13+阅读 · 2017年7月9日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
1+阅读 · 2022年4月20日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
13+阅读 · 2020年4月12日
Arxiv
25+阅读 · 2018年8月19日
小贴士
相关VIP内容
流行病数据可视分析综述
专知会员服务
25+阅读 · 2022年3月21日
面向知识图谱的知识推理综述
专知会员服务
145+阅读 · 2021年11月1日
面向数据可视化的自然语言接口: 综述论文
专知会员服务
18+阅读 · 2021年9月12日
专知会员服务
62+阅读 · 2021年7月18日
专知会员服务
106+阅读 · 2020年10月27日
专知会员服务
189+阅读 · 2020年10月14日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
58+阅读 · 2020年7月13日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
111+阅读 · 2020年4月23日
相关资讯
面向自动驾驶的边缘计算技术研究综述
专知
4+阅读 · 2021年5月3日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
37+阅读 · 2019年8月18日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
18+阅读 · 2018年11月27日
基于二进制哈希编码快速学习的快速图像检索
极市平台
12+阅读 · 2018年5月17日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
现代情感分析方法
Python开发者
13+阅读 · 2017年7月9日
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员