项目名称: 分布式计算环境下的并行数据挖掘算法与理论研究
项目编号: No.60975039
项目类型: 面上项目
立项/批准年度: 2010
项目学科: 自动化技术、计算机技术
项目作者: 何清
作者单位: 中国科学院计算技术研究所
项目金额: 33万元
中文摘要: 云计算的兴起,迫切需要对不同分布式计算环境下的并行数据挖掘算法展开深入研究。本项目研究分布式计算环境下的并行数据挖掘算法与理论,旨在解决在分布式计算环境下如何提供高效率的、鲁棒的和负载平衡的并行数据挖掘服务问题。研究数据挖掘算法的并行化策略问题,提出实用、高效的并行算法;研究数据挖掘算法对Hadoop,P2P,Multi-Agent三个分布式计算环境的适应性问题,包括算法选择、算法设计、参数调节、性能提高问题,找到数据规模、算法复杂性、节点数之间的关系,发现加速比和可扩展性的影响因素;研究数据挖掘任务调度与负载均衡,提出以节点状态、存储能力、活动周期、最近活动时间等为评估要素的负载评估模型和基于进化计算的任务调度算法;研究通讯代价问题,提出通讯代价小的通讯策略;基于算法机理提出安全挖掘策略,用于解决隐私保护问题。开发并行数据挖掘算法与评估原型系统。
中文关键词: 分布式计算环境;并行数据挖掘;云计算;点对点计算;多主体
英文摘要:
英文关键词: distributed computing;parallel data miningdata priva;cloud computing;P2P;Multi-Agent