项目名称: 基于谱聚类的文本聚类集成方法研究
项目编号: No.60975042
项目类型: 面上项目
立项/批准年度: 2010
项目学科: 自动化技术、计算机技术
项目作者: 卢志茂
作者单位: 哈尔滨工程大学
项目金额: 32万元
中文摘要: 聚类分析可以发现无结构文本集中的潜在概念,并用这些概念来给出文本集的概要或者标签,因此,它可以有效地组织和搜索大规模文本集。由于文本数据的高维稀疏性,很多聚类算法并不适用于文本聚类,另外,由于文本数据的海量性,对算法的计算复杂度也有很高要求。 聚类集成技术可以有效克服高效的超球K均值算法的缺点,提高其精度和稳定性。然而现有的聚类集成技术都存在很多问题,如对簇的形状强加了某种结构、对簇的大小有很强的约束、计算复杂度高、得到局部最优解等。鉴于谱聚类算法的诸多优点,本课题将其引入到文本聚类集成问题中,采用"代数变换"、"间接求解"等策略来克服谱聚类算法计算复杂度过高的缺点,涉及高速、高质量文本聚类集成模型,为海量规模的数据挖掘提供实用处理技术。本课题的研究成果可以用于文本摘要、语义分析和信息检索等多个应用领域。因而,本课题的开展具有重要的理论意义和实际应用价值,具有广阔的应用前景。
中文关键词: 聚类分析;文本聚类集成;代数变换;低维嵌入;非负矩阵分解
英文摘要:
英文关键词: clustering analysis;document cluster ensemble;algebraic transformation;low dimensional embedding;non-negative matrix factorizat