项目名称: 基于谱聚类的文本聚类集成方法研究

项目编号: No.60975042

项目类型: 面上项目

立项/批准年度: 2010

项目学科: 自动化技术、计算机技术

项目作者: 卢志茂

作者单位: 哈尔滨工程大学

项目金额: 32万元

中文摘要: 聚类分析可以发现无结构文本集中的潜在概念,并用这些概念来给出文本集的概要或者标签,因此,它可以有效地组织和搜索大规模文本集。由于文本数据的高维稀疏性,很多聚类算法并不适用于文本聚类,另外,由于文本数据的海量性,对算法的计算复杂度也有很高要求。 聚类集成技术可以有效克服高效的超球K均值算法的缺点,提高其精度和稳定性。然而现有的聚类集成技术都存在很多问题,如对簇的形状强加了某种结构、对簇的大小有很强的约束、计算复杂度高、得到局部最优解等。鉴于谱聚类算法的诸多优点,本课题将其引入到文本聚类集成问题中,采用"代数变换"、"间接求解"等策略来克服谱聚类算法计算复杂度过高的缺点,涉及高速、高质量文本聚类集成模型,为海量规模的数据挖掘提供实用处理技术。本课题的研究成果可以用于文本摘要、语义分析和信息检索等多个应用领域。因而,本课题的开展具有重要的理论意义和实际应用价值,具有广阔的应用前景。

中文关键词: 聚类分析;文本聚类集成;代数变换;低维嵌入;非负矩阵分解

英文摘要:

英文关键词: clustering analysis;document cluster ensemble;algebraic transformation;low dimensional embedding;non-negative matrix factorizat

成为VIP会员查看完整内容
1

相关内容

聚类分析(Clustering)是无监督学习的一种,目的是将一组数据点分类,但没有训练数据集,区别于有监督的分类分析(Classification)。
【WWW2021】归一化硬样本挖掘的双重注意匹配网络
专知会员服务
18+阅读 · 2021年3月31日
923页ppt!经典课《机器学习核方法》,附视频
专知会员服务
105+阅读 · 2021年3月1日
专知会员服务
32+阅读 · 2020年9月2日
专知会员服务
43+阅读 · 2020年7月29日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
105+阅读 · 2020年3月22日
金融时序预测中的深度学习方法:2005到2019
专知会员服务
167+阅读 · 2019年12月4日
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
5+阅读 · 2022年4月8日
海量文本求topk相似:faiss库初探
AINLP
19+阅读 · 2020年5月29日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
文本情感分析的预处理
Datartisan数据工匠
17+阅读 · 2018年3月8日
现代情感分析方法
算法与数学之美
14+阅读 · 2018年1月12日
情感分析:数据采集与词向量构造方法
北京思腾合力科技有限公司
29+阅读 · 2017年12月20日
专栏 | 技术干货:一文详解LDA主题模型
机器之心
28+阅读 · 2017年12月1日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Age Optimal Sampling Under Unknown Delay Statistics
Arxiv
0+阅读 · 2022年4月20日
Arxiv
1+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
0+阅读 · 2022年4月15日
Arxiv
17+阅读 · 2022年1月11日
小贴士
相关VIP内容
【WWW2021】归一化硬样本挖掘的双重注意匹配网络
专知会员服务
18+阅读 · 2021年3月31日
923页ppt!经典课《机器学习核方法》,附视频
专知会员服务
105+阅读 · 2021年3月1日
专知会员服务
32+阅读 · 2020年9月2日
专知会员服务
43+阅读 · 2020年7月29日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
105+阅读 · 2020年3月22日
金融时序预测中的深度学习方法:2005到2019
专知会员服务
167+阅读 · 2019年12月4日
相关资讯
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
5+阅读 · 2022年4月8日
海量文本求topk相似:faiss库初探
AINLP
19+阅读 · 2020年5月29日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
文本情感分析的预处理
Datartisan数据工匠
17+阅读 · 2018年3月8日
现代情感分析方法
算法与数学之美
14+阅读 · 2018年1月12日
情感分析:数据采集与词向量构造方法
北京思腾合力科技有限公司
29+阅读 · 2017年12月20日
专栏 | 技术干货:一文详解LDA主题模型
机器之心
28+阅读 · 2017年12月1日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员