项目名称: 分布式数据流的集成模式挖掘模型和概念漂移检测算法研究

项目编号: No.60873145

项目类型: 面上项目

立项/批准年度: 2009

项目学科: 矿业工程

项目作者: 毛国君

作者单位: 北京工业大学

项目金额: 30万元

中文摘要: 许多应用具有典型的分布式数据流特征。和单数据流的模式挖掘相比,分布式数据流需要分布式的挖掘构架,由此带来的理论和方法上的问题需要解决。本项目研究了分布式数据流的形式化方法、分布式数据流的集成模式学习模型、节点级(单数据流)的局部模式更新算法、分布式数据流的全局模式挖掘模型与算法、面向于数据到达不均匀的分布式数据流的概念漂移挖掘算法等问题。利用密度网格、支持向量机以及微簇等先进技术,解决了分布式数据流的全局分类以及聚类等问题;利用数学和人工智能等手段,研究了分布式数据流的形式化表示及挖掘模型构造;利用统计学和已有的数据挖掘技术等,探索了分布式数据流的全局模式发现模型和算法构造等。实验说明:我们提出的方法能很好地适应分布式数据流模式挖掘的需要,有较高的精度或者效率。

中文关键词: 分布式数据流;集成学习;概念漂移;全局分类;全局聚类

英文摘要: There are many applications have typical features of distributed data streams. Comparing with a single data stream, a distributed data stream needs new mining frameworks to support in distributed ways, and it can result in many new problems in theory and methods. We have studied some important problems in mining distributed data streams, which involves expression formalization, ensemble learning, local model updating, global model mining and concept drifting in distributed data streams. Using density-grid, SVM and micro-cluster, we created some global classifying and clustering models; Making use of mathematics and artificial intelligence, we constructed distributed mining expression models; Studying statistics and data mining methods for distributed data streams, we designed some global models and algorithms for mining distributed data streams. Experimental results demonstrate that the proposed methods are able to help build mining models more accurate or efficient than other simple approaches can offer.

英文关键词: distributed data stream; ensemble learning; concept drifting; global classification; global clustering

成为VIP会员查看完整内容
2

相关内容

【AAAI 2022】基于数据分布生成的可预测概念漂移适应
专知会员服务
33+阅读 · 2022年1月12日
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
21+阅读 · 2021年11月29日
专知会员服务
64+阅读 · 2021年7月25日
专知会员服务
16+阅读 · 2021年7月13日
【2021新书】Python流数据实用机器学习,127页pdf
专知会员服务
73+阅读 · 2021年5月23日
专知会员服务
23+阅读 · 2021年1月30日
GCN如何并行化?分布式图卷积神经网路,13页pdf
专知会员服务
34+阅读 · 2020年7月20日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
85+阅读 · 2020年5月23日
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
NeurIPS 2021 | CyGen:基于概率论理论的生成式建模新模式
微软研究院AI头条
0+阅读 · 2021年11月26日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
已删除
将门创投
12+阅读 · 2019年7月1日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月18日
小贴士
相关VIP内容
【AAAI 2022】基于数据分布生成的可预测概念漂移适应
专知会员服务
33+阅读 · 2022年1月12日
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
21+阅读 · 2021年11月29日
专知会员服务
64+阅读 · 2021年7月25日
专知会员服务
16+阅读 · 2021年7月13日
【2021新书】Python流数据实用机器学习,127页pdf
专知会员服务
73+阅读 · 2021年5月23日
专知会员服务
23+阅读 · 2021年1月30日
GCN如何并行化?分布式图卷积神经网路,13页pdf
专知会员服务
34+阅读 · 2020年7月20日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
85+阅读 · 2020年5月23日
相关资讯
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
NeurIPS 2021 | CyGen:基于概率论理论的生成式建模新模式
微软研究院AI头条
0+阅读 · 2021年11月26日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
已删除
将门创投
12+阅读 · 2019年7月1日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员