Short text stream clustering is an important but challenging task since massive amount of text is generated from different sources such as micro-blogging, question-answering, and social news aggregation websites. One of the major challenges of clustering such massive amount of text is to cluster them within a reasonable amount of time. The existing state-of-the-art short text stream clustering methods can not cluster such massive amount of text within a reasonable amount of time as they compute similarities between a text and all the existing clusters to assign that text to a cluster. To overcome this challenge, we propose a fast short text stream clustering method (called FastStream) that efficiently index the clusters using inverted index and compute similarity between a text and a selected number of clusters while assigning a text to a cluster. In this way, we not only reduce the running time of our proposed method but also reduce the running time of several state-of-the-art short text stream clustering methods. FastStream assigns a text to a cluster (new or existing) using the dynamically computed similarity thresholds based on statistical measure. Thus our method efficiently deals with the concept drift problem. Experimental results demonstrate that FastStream outperforms the state-of-the-art short text stream clustering methods by a significant margin on several short text datasets. In addition, the running time of FastStream is several orders of magnitude faster than that of the state-of-the-art methods.


翻译:短文本流群集是一项重要但具有挑战性的任务,因为大量文本来自微博客、问答和社交新闻汇总网站等不同来源,因此,短文本流群集是一项重要但富有挑战性的任务。 如此大量文本群集的主要挑战之一是在合理的时间内将其分组。 现有最先进的短文本流群集方法不能在合理的时间内将如此大量的文本分组,因为它们计算出文本与所有现有组群之间的相似之处。 为了克服这一挑战,我们建议一种快速短文本流群集方法(称为快速StastStream),该方法能有效地用倒转指数来索引集集集集集集集集集,并在文本和选定数组群群群组之间计算相似之处。 这样,我们的方法可以有效地将一个文本群集组合群组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合成一个快速短短短,同时在向一组群组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合组合

0
下载
关闭预览

相关内容

如何构建你的推荐系统?这份21页ppt教程为你讲解
专知会员服务
64+阅读 · 2021年2月12日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
76+阅读 · 2021年1月30日
专知会员服务
42+阅读 · 2020年12月18日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
word2Vec总结
AINLP
3+阅读 · 2019年11月2日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
7+阅读 · 2018年8月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Arxiv
0+阅读 · 2021年3月16日
Arxiv
0+阅读 · 2021年3月13日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
4+阅读 · 2019年4月17日
VIP会员
相关VIP内容
如何构建你的推荐系统?这份21页ppt教程为你讲解
专知会员服务
64+阅读 · 2021年2月12日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
76+阅读 · 2021年1月30日
专知会员服务
42+阅读 · 2020年12月18日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
word2Vec总结
AINLP
3+阅读 · 2019年11月2日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
7+阅读 · 2018年8月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Top
微信扫码咨询专知VIP会员