项目名称: 基于约束的高维数据聚类

项目编号: No.61272374

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 张宪超

作者单位: 大连理工大学

项目金额: 80万元

中文摘要: 聚类是数据挖掘的基本内容,它帮助发现数据的自然结构,在很多领域起重要作用。近年来产生的大量高维数据给传统聚类算法带来被称为维度灾难的巨大挑战,主要表现为:在高维数据中不同的簇对应于不同的子空间,发现子空间和发现簇这两个任务是循环依赖的。为了打破这种循环依赖关系,现有算法通常对数据集做某种假设,而这些假设在多数情况下是不成立的。通过前期大量研究,我们认识到约束信息可以用来打破这种循环依赖关系。但基于约束的高维数据聚类研究刚刚起步,仅有的几个算法都是对现有无监督算法的局部改进,没有摆脱对数据集的假设,即没有在真正意义上解决循环依赖这个根本问题。本项目在我们前期研究取得进展的基础上,通过引进约束与子空间相关度的概念来解决高维数据聚类的循环依赖问题,并将约束用于聚类的各个环节,获得基于约束的高维数据聚类高质量算法,解决高维数据聚类的维度灾难,为初步建立基于约束的高维数据聚类算法和理论体系奠定基础。

中文关键词: 聚类;高维数据;不确定数据;多视角聚类;多任务聚类

英文摘要: Clustering, which helps to find natural structure of data, is an essential content of data minning and plays an important role in many fields. In recent years, massive high-dimensional data has been produced, which poses hugh challenge,called the curse of dimensionality, to traditional clustering algorithms. The challenge is mainly because that in high dimensional data, different clusters are embeded in different subpaces, and the tasks of finding subspaces and detecting clusters are circular dependent. To break the circular dependency, existing algorithms usually make some assumptions on the data set. However, these assumptions do not make sense in most situations. Through numerous studies, we have learned that constraint information could be used to break this kind of circular dependency. Nevertheless, research on constraint based high dimensional data clustering is just the beginning. The only few algorithms are all local improvements on existing unsupervised algorithms. They do not escape from making assumptions on the data set, thus could not really break the circular dependency. In this project, based on our previous results, we introduce the concept of correlation between constraints and subspaces to solve the circular dependency problem of high-dimensional data clustering. We also apply constraints to al

英文关键词: Clustering;High Dimensional Uncertain Data;Uncertain Data;Multi-view Clustering;Multi-task Clustering

成为VIP会员查看完整内容
2

相关内容

【NeurIPS 2021】基于次模优化的规则学习算法框架
专知会员服务
33+阅读 · 2021年11月30日
【WSDM2022】基于约束聚类学习离散表示的高效密集检索
专知会员服务
26+阅读 · 2021年11月16日
专知会员服务
15+阅读 · 2021年10月11日
专知会员服务
47+阅读 · 2021年8月29日
元学习-生物医学中连接标记和未标记数据
专知会员服务
29+阅读 · 2021年8月3日
【经典书】模式识别概率理论,654页pdf
专知会员服务
78+阅读 · 2021年1月21日
Python机器学习经典实例,366页pdf
专知会员服务
102+阅读 · 2021年1月2日
专知会员服务
47+阅读 · 2020年8月27日
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
主成分分析用于可视化(附链接)
大数据文摘
0+阅读 · 2022年3月14日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
15+阅读 · 2021年2月19日
Arxiv
22+阅读 · 2019年11月24日
Arxiv
25+阅读 · 2018年8月19日
小贴士
相关VIP内容
【NeurIPS 2021】基于次模优化的规则学习算法框架
专知会员服务
33+阅读 · 2021年11月30日
【WSDM2022】基于约束聚类学习离散表示的高效密集检索
专知会员服务
26+阅读 · 2021年11月16日
专知会员服务
15+阅读 · 2021年10月11日
专知会员服务
47+阅读 · 2021年8月29日
元学习-生物医学中连接标记和未标记数据
专知会员服务
29+阅读 · 2021年8月3日
【经典书】模式识别概率理论,654页pdf
专知会员服务
78+阅读 · 2021年1月21日
Python机器学习经典实例,366页pdf
专知会员服务
102+阅读 · 2021年1月2日
专知会员服务
47+阅读 · 2020年8月27日
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员