项目名称: 大数据环境下的空间聚类方法研究

项目编号: No.41301402

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 天文学、地球科学

项目作者: 付艳

作者单位: 北京师范大学

项目金额: 25万元

中文摘要: 空间聚类是空间数据挖掘的一个重要分支,目的是从空间数据库中发现隐藏的模式或识别出相似的地域。随着空间信息处理技术的高速发展,空前规模的大数据势必给聚类研究带来新的挑战。本项目的研究面向大数据环境下的空间聚类方法展开,内容包括:(1)利用并行计算框架MapReduce,首次将现有聚类算法移植到分布式计算平台,以满足空间大数据的科学计算需求,也为更大规模、更高维度的空间数据及时空数据聚类研究提供了基础;(2)首次利用LDA模型设计了在线的空间聚类算法,不仅满足了大数据的并行计算需求,还解决了维度高、噪声多等问题,为时空信息挖掘及趋势预测等提供了研究基础。在大数据环境下,先进的数据挖掘技术可以让空间领域的科研工作者更轻松地探索数据的时空模式,不断深化对地球系统复杂演变过程的理解。而本项目的研究内容对于更全面地发现空间数据属性间存在的潜在联系和变化规律,具有重要的理论意义和应用前景。

中文关键词: 空间大数据;聚类;分布式计算;深度学习;迁移学习

英文摘要: Spatial clustering is an important part of spatial data mining. The goal of spatial clustering is to find hidden pattern or similar regions from spatial databases. With the high speed development of information technique for spatial data, big data will undoubtedly bring many new challenges to the spatial clustering research. The proposal aims to deal with spatial clustering on big data, and details are listed as follows: (1)Based on the parallel computation framework, MapReduce, we firstly try to transfer existing spatial clustering methods to the distributed computing platform, and check whether they would work. This transformation is to satisfy the requirement of the scientific computing on big data. And, if this works, the output could be used to support the spatial and temporal-spatial clustering research on a data set with bigger size and higher dimension. (2)We firstly introduce LDA model to propose an on-line spatial clustering method. The method could satisfy the performance requirement from big data processing, and it also avoid some drawbacks caused by spatial data, like high dimension and lots of noise. This work will definitely support the research on temporal-spatial mining and trend prediction. With big data, good data mining techniques could help researchers explore temporal-spatial patterns easil

英文关键词: spatial big data;clustering;distributed computing;deep learning;transfer learning

成为VIP会员查看完整内容
1

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
空间数据智能:概念、技术与挑战
专知会员服务
85+阅读 · 2022年2月3日
【博士论文】开放环境下的度量学习研究
专知会员服务
46+阅读 · 2021年12月4日
大数据时代的地学知识图谱研究展望
专知会员服务
33+阅读 · 2021年11月25日
专知会员服务
34+阅读 · 2021年10月17日
专知会员服务
52+阅读 · 2021年10月1日
《6G总体愿景与潜在关键技术》白皮书,32页pdf
专知会员服务
104+阅读 · 2021年6月8日
专知会员服务
72+阅读 · 2021年4月8日
专知会员服务
45+阅读 · 2020年11月13日
空间数据智能:概念、技术与挑战
专知
8+阅读 · 2022年2月4日
【博士论文】开放环境下的度量学习研究
专知
7+阅读 · 2021年12月4日
大数据时代的地学知识图谱研究展望
专知
0+阅读 · 2021年11月25日
「时空数据分析」综述论文,44页pdf
专知
9+阅读 · 2021年3月20日
支持个性化学习的行为大数据可视化研究
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月14日
Arxiv
14+阅读 · 2021年3月10日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
小贴士
相关VIP内容
空间数据智能:概念、技术与挑战
专知会员服务
85+阅读 · 2022年2月3日
【博士论文】开放环境下的度量学习研究
专知会员服务
46+阅读 · 2021年12月4日
大数据时代的地学知识图谱研究展望
专知会员服务
33+阅读 · 2021年11月25日
专知会员服务
34+阅读 · 2021年10月17日
专知会员服务
52+阅读 · 2021年10月1日
《6G总体愿景与潜在关键技术》白皮书,32页pdf
专知会员服务
104+阅读 · 2021年6月8日
专知会员服务
72+阅读 · 2021年4月8日
专知会员服务
45+阅读 · 2020年11月13日
相关资讯
空间数据智能:概念、技术与挑战
专知
8+阅读 · 2022年2月4日
【博士论文】开放环境下的度量学习研究
专知
7+阅读 · 2021年12月4日
大数据时代的地学知识图谱研究展望
专知
0+阅读 · 2021年11月25日
「时空数据分析」综述论文,44页pdf
专知
9+阅读 · 2021年3月20日
支持个性化学习的行为大数据可视化研究
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员