基于谱聚类的文本聚类集成方法研究 - 专知基金

会员服务 ·

1

聚类分析 · 代数变换 · 低维嵌入 · 非负矩阵分解 ·

2009 年 12 月 31 日

基于谱聚类的文本聚类集成方法研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 基于谱聚类的文本聚类集成方法研究

项目编号： No.60975042

项目类型： 面上项目

立项/批准年度： 2010

项目学科： 自动化技术、计算机技术

项目作者： 卢志茂

作者单位： 哈尔滨工程大学

项目金额： 32万元

中文摘要： 聚类分析可以发现无结构文本集中的潜在概念，并用这些概念来给出文本集的概要或者标签，因此，它可以有效地组织和搜索大规模文本集。由于文本数据的高维稀疏性，很多聚类算法并不适用于文本聚类，另外，由于文本数据的海量性，对算法的计算复杂度也有很高要求。聚类集成技术可以有效克服高效的超球K均值算法的缺点，提高其精度和稳定性。然而现有的聚类集成技术都存在很多问题，如对簇的形状强加了某种结构、对簇的大小有很强的约束、计算复杂度高、得到局部最优解等。鉴于谱聚类算法的诸多优点，本课题将其引入到文本聚类集成问题中，采用"代数变换"、"间接求解"等策略来克服谱聚类算法计算复杂度过高的缺点，涉及高速、高质量文本聚类集成模型，为海量规模的数据挖掘提供实用处理技术。本课题的研究成果可以用于文本摘要、语义分析和信息检索等多个应用领域。因而，本课题的开展具有重要的理论意义和实际应用价值，具有广阔的应用前景。

中文关键词： 聚类分析；文本聚类集成；代数变换；低维嵌入；非负矩阵分解

英文摘要：

英文关键词： clustering analysis；document cluster ensemble；algebraic transformation；low dimensional embedding；non-negative matrix factorizat

成为VIP会员查看完整内容

1

相关内容

聚类分析

聚类分析(Clustering)是无监督学习的一种，目的是将一组数据点分类，但没有训练数据集，区别于有监督的分类分析(Classification)。

【硬核书】用于机器学习和数据挖掘的数学分析，968页pdf

专知会员服务

187+阅读 · 2021年9月3日

【WWW2021】归一化硬样本挖掘的双重注意匹配网络

【WWW2021】归一化硬样本挖掘的双重注意匹配网络

专知会员服务

18+阅读 · 2021年3月31日

923页ppt！经典课《机器学习核方法》，附视频

923页ppt！经典课《机器学习核方法》，附视频

专知会员服务

105+阅读 · 2021年3月1日

基于迁移学习的细粒度实体分类方法的研究

专知会员服务

32+阅读 · 2020年9月2日

低秩稀疏矩阵优化问题的模型与算法

专知会员服务

46+阅读 · 2020年7月29日

基于深度学习的主题模型研究，中文综述，29页pdf，计算机学报

基于深度学习的主题模型研究，中文综述，29页pdf，计算机学报

专知会员服务

124+阅读 · 2020年5月20日

【UIUC硬核书】统计学习理论，Statistical Learning Theory，213页pdf

【UIUC硬核书】统计学习理论，Statistical Learning Theory，213页pdf

专知会员服务

134+阅读 · 2020年4月14日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

专知会员服务

105+阅读 · 2020年3月22日

金融时序预测中的深度学习方法：2005到2019

金融时序预测中的深度学习方法：2005到2019

专知会员服务

168+阅读 · 2019年12月4日

基于机器学习的自动化网络流量分析

基于机器学习的自动化网络流量分析

CCF计算机安全专委会

5+阅读 · 2022年4月8日

海量文本求topk相似：faiss库初探

海量文本求topk相似：faiss库初探

AINLP

20+阅读 · 2020年5月29日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

文本情感分析的预处理

文本情感分析的预处理

Datartisan数据工匠

17+阅读 · 2018年3月8日

现代情感分析方法

现代情感分析方法

算法与数学之美

14+阅读 · 2018年1月12日

情感分析:数据采集与词向量构造方法

情感分析:数据采集与词向量构造方法

北京思腾合力科技有限公司

29+阅读 · 2017年12月20日

专栏 | 技术干货：一文详解LDA主题模型

专栏 | 技术干货：一文详解LDA主题模型

机器之心

28+阅读 · 2017年12月1日

python文本相似度计算

python文本相似度计算

北京思腾合力科技有限公司

24+阅读 · 2017年11月6日

文本聚类：从非结构化数据快速获取见解

文本聚类：从非结构化数据快速获取见解

Datartisan数据工匠

15+阅读 · 2017年10月12日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于博弈论的高效稳定聚类算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

有向加权网络上基于模式的谱聚类研究

国家自然科学基金

2+阅读 · 2014年12月31日

半监督文本聚类算法在个性化文本分析上的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于充分降维方法的高维数据假设检验问题的研究

国家自然科学基金

0+阅读 · 2012年12月31日

统计学习中文问句分类方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向文本挖掘的特征选择关键问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

弱分类器的选择与集成方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

判别性正则化技术及其在半监督学习中的拓展研究

国家自然科学基金

0+阅读 · 2009年12月31日

Age Optimal Sampling Under Unknown Delay Statistics

Age Optimal Sampling Under Unknown Delay Statistics

Arxiv

0+阅读 · 2022年4月20日

Introduction to Semi-discrete Calculus

Arxiv

1+阅读 · 2022年4月19日

Quantum Bayesian Statistical Inference

Arxiv

1+阅读 · 2022年4月19日

A faster reduction of the dynamic time warping distance to the longest increasing subsequence length

Arxiv

0+阅读 · 2022年4月18日

M-Estimation based on quasi-processes from discrete samples of Levy processes

Arxiv

0+阅读 · 2022年4月18日

Limit theorems of Chatterjee's rank correlation

Arxiv

0+阅读 · 2022年4月17日

A Statistical Decision-Theoretical Perspective on the Two-Stage Approach to Parameter Estimation

Arxiv

0+阅读 · 2022年4月15日

Generalized Universal Coding of Integers

Arxiv

0+阅读 · 2022年4月15日

An Introduction to Autoencoders

Arxiv

17+阅读 · 2022年1月11日

Consensus Based Medical Image Segmentation Using Semi-Supervised Learning And Graph Cuts

Arxiv

11+阅读 · 2018年5月21日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

非负矩阵分解

热门VIP内容

开通专知VIP会员享更多权益服务

NeurIPS 2025 | NMKE：基于神经元归因与动态稀疏掩码的终身知识编辑

前沿人工智能趋势报告（Frontier AI Trends Report）

【MIT博士论文】弱监督学习：理论、方法与应用

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

相关VIP内容

【硬核书】用于机器学习和数据挖掘的数学分析，968页pdf

专知会员服务

187+阅读 · 2021年9月3日

【WWW2021】归一化硬样本挖掘的双重注意匹配网络

【WWW2021】归一化硬样本挖掘的双重注意匹配网络

专知会员服务

18+阅读 · 2021年3月31日

923页ppt！经典课《机器学习核方法》，附视频

923页ppt！经典课《机器学习核方法》，附视频

专知会员服务

105+阅读 · 2021年3月1日

基于迁移学习的细粒度实体分类方法的研究

专知会员服务

32+阅读 · 2020年9月2日

低秩稀疏矩阵优化问题的模型与算法

专知会员服务

46+阅读 · 2020年7月29日

基于深度学习的主题模型研究，中文综述，29页pdf，计算机学报

基于深度学习的主题模型研究，中文综述，29页pdf，计算机学报

专知会员服务

124+阅读 · 2020年5月20日

【UIUC硬核书】统计学习理论，Statistical Learning Theory，213页pdf

【UIUC硬核书】统计学习理论，Statistical Learning Theory，213页pdf

专知会员服务

134+阅读 · 2020年4月14日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

专知会员服务

105+阅读 · 2020年3月22日

金融时序预测中的深度学习方法：2005到2019

金融时序预测中的深度学习方法：2005到2019

专知会员服务

168+阅读 · 2019年12月4日

相关资讯

基于机器学习的自动化网络流量分析

基于机器学习的自动化网络流量分析

CCF计算机安全专委会

5+阅读 · 2022年4月8日

海量文本求topk相似：faiss库初探

海量文本求topk相似：faiss库初探

AINLP

20+阅读 · 2020年5月29日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

文本情感分析的预处理

文本情感分析的预处理

Datartisan数据工匠

17+阅读 · 2018年3月8日

现代情感分析方法

现代情感分析方法

算法与数学之美

14+阅读 · 2018年1月12日

情感分析:数据采集与词向量构造方法

情感分析:数据采集与词向量构造方法

北京思腾合力科技有限公司

29+阅读 · 2017年12月20日

专栏 | 技术干货：一文详解LDA主题模型

专栏 | 技术干货：一文详解LDA主题模型

机器之心

28+阅读 · 2017年12月1日

python文本相似度计算

python文本相似度计算

北京思腾合力科技有限公司

24+阅读 · 2017年11月6日

文本聚类：从非结构化数据快速获取见解

文本聚类：从非结构化数据快速获取见解

Datartisan数据工匠

15+阅读 · 2017年10月12日

相关基金

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于博弈论的高效稳定聚类算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

有向加权网络上基于模式的谱聚类研究

国家自然科学基金

2+阅读 · 2014年12月31日

半监督文本聚类算法在个性化文本分析上的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于充分降维方法的高维数据假设检验问题的研究

国家自然科学基金

0+阅读 · 2012年12月31日

统计学习中文问句分类方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向文本挖掘的特征选择关键问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

弱分类器的选择与集成方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

判别性正则化技术及其在半监督学习中的拓展研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Age Optimal Sampling Under Unknown Delay Statistics

Age Optimal Sampling Under Unknown Delay Statistics

Arxiv

0+阅读 · 2022年4月20日

Introduction to Semi-discrete Calculus

Arxiv

1+阅读 · 2022年4月19日

Quantum Bayesian Statistical Inference

Arxiv

1+阅读 · 2022年4月19日

A faster reduction of the dynamic time warping distance to the longest increasing subsequence length

Arxiv

0+阅读 · 2022年4月18日

M-Estimation based on quasi-processes from discrete samples of Levy processes

Arxiv

0+阅读 · 2022年4月18日

Limit theorems of Chatterjee's rank correlation

Arxiv

0+阅读 · 2022年4月17日

A Statistical Decision-Theoretical Perspective on the Two-Stage Approach to Parameter Estimation

Arxiv

0+阅读 · 2022年4月15日

Generalized Universal Coding of Integers

Arxiv

0+阅读 · 2022年4月15日

An Introduction to Autoencoders

Arxiv

17+阅读 · 2022年1月11日

Consensus Based Medical Image Segmentation Using Semi-Supervised Learning And Graph Cuts

Arxiv

11+阅读 · 2018年5月21日

微信扫码咨询专知VIP会员