项目名称: 基于数据分布评估和支持向量机方法的分布式数据流挖掘模型和算法研究

项目编号: No.61273293

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 毛国君

作者单位: 中央财经大学

项目金额: 81万元

中文摘要: 分布式数据流是指相关联的分布在不同节点的多数据流。分布式数据流挖掘已经成为数据挖掘新的研究分支,全局模式挖掘是其中的一个核心问题。全局模式挖掘是以局部数据或者模式的传输和集成为基础的,因此网络数据传输代价和挖掘精度是两个基本指标。减少传输代价意味着要尽量少的传输原始数据,而提高挖掘精度意味着要尽量多地利用局部数据流的有用信息,所以一个优秀的挖掘模型应该是追求"在适当的传输代价下寻求较高的挖掘精度"。本项目通过数据分布评估和支持向量机方法来解决分布式数据流的全局模式挖掘问题。在理论上,研究分布式数据流的全局模式挖掘模型及其对应的模式演化所需的理论基础。在方法上,面向于分布式数据流的全局模式挖掘目标,研究有效的分布式的数据分布评估和支持向量机技术,并且使用它们来发现可用的小容量的学习样本。设计对应的分布式数据流的全局分类和聚类算法,理论分析和实验验证算法的精度和效率。

中文关键词: 数据挖掘;分布式数据流;全局模式;数据分布评估;支持向量机

英文摘要: A distributed data stream is a set of some related data streams which can occure at multiple nodes in a network. Mining distributed data streams has become a focus of data mining research, and discoving global patterns in a distributed data stream is an important issue. Mining global patterns needs collecting and transfering local data from local nodes in distributed ways, so a good method for mining distributed data streams should have a low transmission cost and a high mining precision. However, when reducing a transmission cost means less data to be transferred from local nodes to the central node, getting a high mining precision means more useful information from local nodes to be used, therefore, mining distributed data streams is a trade-off art of transmission cost and mining precision. This project proposes solving the problem in mining distributed data streams by evaluating data distributions and using SVM methods.It will study the theory and models of mining distributed data streams, explore the effective methods in data distribution evaluation and SVMs for getting learning samples in data streams, and design the efficient algorithms to classifying and clustering distributed data streams. Also, these models and methods will be tested by a series of experiments.

英文关键词: data mining;distributed data stream;global patter;data distribution evaluation;SVM

成为VIP会员查看完整内容
1

相关内容

数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程。
专知会员服务
17+阅读 · 2021年7月13日
专知会员服务
19+阅读 · 2021年5月16日
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
31+阅读 · 2021年2月7日
基于机器学习的数据库技术综述
专知会员服务
55+阅读 · 2021年1月2日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
59+阅读 · 2020年7月13日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
86+阅读 · 2020年5月23日
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
5+阅读 · 2022年4月8日
并发-分布式锁质量保障总结
阿里技术
0+阅读 · 2022年3月7日
SIGIR2021 | 基于排序的推荐系统度量优化新视角
机器学习与推荐算法
1+阅读 · 2021年12月6日
分布式一致性算法:解决分布式系统 80%核心问题
夕小瑶的卖萌屋
1+阅读 · 2021年8月31日
一文读懂机器学习模型的选择与取舍
DBAplus社群
13+阅读 · 2019年8月25日
半监督深度学习小结:类协同训练和一致性正则化
【迁移学习】迁移学习在图像分类中的简单应用策略
范式大学|迁移学习实战:从算法到实践
机器学习研究会
16+阅读 · 2017年8月9日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月15日
小贴士
相关VIP内容
专知会员服务
17+阅读 · 2021年7月13日
专知会员服务
19+阅读 · 2021年5月16日
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
31+阅读 · 2021年2月7日
基于机器学习的数据库技术综述
专知会员服务
55+阅读 · 2021年1月2日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
59+阅读 · 2020年7月13日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
86+阅读 · 2020年5月23日
相关资讯
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
5+阅读 · 2022年4月8日
并发-分布式锁质量保障总结
阿里技术
0+阅读 · 2022年3月7日
SIGIR2021 | 基于排序的推荐系统度量优化新视角
机器学习与推荐算法
1+阅读 · 2021年12月6日
分布式一致性算法:解决分布式系统 80%核心问题
夕小瑶的卖萌屋
1+阅读 · 2021年8月31日
一文读懂机器学习模型的选择与取舍
DBAplus社群
13+阅读 · 2019年8月25日
半监督深度学习小结:类协同训练和一致性正则化
【迁移学习】迁移学习在图像分类中的简单应用策略
范式大学|迁移学习实战:从算法到实践
机器学习研究会
16+阅读 · 2017年8月9日
相关基金
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员