项目名称: 面向TB级大数据的分布式属性分层加权子空间聚类集成方法研究

项目编号: No.61305059

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 陈小军

作者单位: 深圳大学

项目金额: 25万元

中文摘要: 大数据聚类的挑战重点体现在两个方面:一方面是数据的超高维性,这种超高维数据具有内在的稀疏性和聚类簇分布的子空间特性,使得绝大部分已有聚类算法失效;另一方面,庞大的对象数量导致庞大的数据量,串行的聚类算法难以对比单机内存大得多的数据进行聚类。 针对以上挑战,本项目基于申请人在博士期间的研究成果,提出面向TB级大数据的分布式属性分层加权子空间聚类集成技术。研究内容包括:1)研究属性分组归并、单个属性与属性组分层加权的子空间聚类方法,解决超高维数据的聚类问题;2)结合聚类集成方法,研究属性分层加权子空间聚类集成算法,进一步优化超高维数据聚类的结果;3)针对超高维大数据聚类问题,在基于MapReduce的k-means软子空间算法实现的基础上,研发广度优先的分布式属性分层加权子空间聚类集成方法,达到TB级超高维大数据聚类的能力。预期成果将为大数据聚类分析提供新的理论工具及关键技术。

中文关键词: 聚类;子空间聚类;大数据;;

英文摘要: High-dimensional big data brings two challenges to the current data clustering technologies: very high-dimensionallity and massive objects. Such data is very sparse and often contains clusters in subspace, which makes most clustering methods inapplicable. Big data with massive objects cannot be clustered by serial clustering algorithms. To conquer the above two challenges, this project studies distributed variable layering subspace weighting cluster ensembles method for TB scale data. This research is a continuation of applicant's preliminary work in PhD study, which first proposed two-level variable weighting subspace clustering method for multi-view data. This project has three main tasks: 1) Develop methods to divide a large number of variables into a few groups and a variable layering subspace weighting clustering algorithm to solve the problem of very high-dimensional data clustering; 2) Develop a new cluster ensembles algorithm that uses the variable layering subspace weighting clustering algorithm for component clustering generation; 3) Develop a scalable distributed variable layering subspace weighting cluster ensembles algorithm based on the breadth-first strategy to enable TB scale data clustering. The expected delieverable will contribute to new theories and tools to solve large scale data clustering

英文关键词: Clustering;Subspace clustering;Big data;;

成为VIP会员查看完整内容
0

相关内容

工信部印发《“十四五”大数据产业发展规划》,20页pdf
专知会员服务
15+阅读 · 2021年10月11日
专知会员服务
60+阅读 · 2021年3月25日
专知会员服务
28+阅读 · 2021年2月17日
专知会员服务
25+阅读 · 2020年12月17日
【南京大学冯雯博士论文】新型深度学习模型的研究
专知会员服务
67+阅读 · 2020年12月5日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
58+阅读 · 2020年7月13日
极市直播|陈使明:零样本学习的关键问题研究
极市平台
1+阅读 · 2022年2月23日
并发场景下的幂等问题——分布式锁详解
阿里技术
0+阅读 · 2021年11月30日
一文详解Redis中BigKey、HotKey的发现与处理
阿里技术
0+阅读 · 2021年8月25日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
26+阅读 · 2018年12月13日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
23+阅读 · 2022年2月24日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
13+阅读 · 2019年1月26日
Arxiv
12+阅读 · 2018年1月28日
小贴士
相关主题
相关VIP内容
工信部印发《“十四五”大数据产业发展规划》,20页pdf
专知会员服务
15+阅读 · 2021年10月11日
专知会员服务
60+阅读 · 2021年3月25日
专知会员服务
28+阅读 · 2021年2月17日
专知会员服务
25+阅读 · 2020年12月17日
【南京大学冯雯博士论文】新型深度学习模型的研究
专知会员服务
67+阅读 · 2020年12月5日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
58+阅读 · 2020年7月13日
相关资讯
极市直播|陈使明:零样本学习的关键问题研究
极市平台
1+阅读 · 2022年2月23日
并发场景下的幂等问题——分布式锁详解
阿里技术
0+阅读 · 2021年11月30日
一文详解Redis中BigKey、HotKey的发现与处理
阿里技术
0+阅读 · 2021年8月25日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
26+阅读 · 2018年12月13日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员