项目名称: 云环境下面向大数据并行计算的工作流执行优化研究
项目编号: No.61370207
项目类型: 面上项目
立项/批准年度: 2013
项目学科: 自动化技术、计算机技术
项目作者: 宋爱波
作者单位: 东南大学
项目金额: 76万元
中文摘要: 目前,针对大数据并行处理的云计算系统分为三层,分布式文件系统、数据并行作业执行引擎和编程接口,编程接口负责将复杂应用解析成工作流交由数据并行作业执行引擎处理。然而,当前的云计算系统不支持工作流的调度机制,不能保证用户作业执行的优先级;子任务指派过程也没有考虑工作流作业执行的时间约束,过分追求数据本地性影响了作业的执行性能;没有对工作流作业的中间计算结果进行有效管理,增加了中间结果访问的I/O开销。针对以上问题,本项目以优化云环境下面向大数据并行计算的工作流执行为目标,改进现有的系统架构,引进工作流作业调度,保证多数据输出的用户作业优先级;引入中间数据管理,研究基于内存的高效中间计算结果存储管理机制,减少后继作业读取中间结果的I/O开销;研究与工作流作业调度和中间结果数据存储相匹配的并行子任务指派方法,保证工作流作业的顺利执行。在此基础上,实现云计算工作流调度系统,验证本项目提出的相关理论。
中文关键词: MapReduce;查询优化;并行计算;;
英文摘要: Nowadays, the common cloud platform focus on the big data analysis always consists of three components, that is the distributed file system, the execution engine for data parallel processing and the programmatic interface. Note that, the programmatic inte
英文关键词: MapReduce;Query optimization;parallel computing;;