项目名称: 基于Hadoop的分布式并行联机分析处理技术研究
项目编号: No.61173028
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 计算机科学学科
项目作者: 鲍玉斌
作者单位: 东北大学
项目金额: 54万元
中文摘要: 传统的OLAP技术,在进行OLAP分析时不能再设置数据的过滤条件,只能在分析的维度上选择相应的值范围作为分析条件。实际上,这样的分析过于简单,不能满足应用需求。另外,目前的OLAP技术不能很好地支持复杂的聚集查询(例如分位数、众数)。另外传统的并行OLAP技术存在负载均衡困难以及系统伸缩性差等问题。而基于Hadoop的并行处理模式可伸缩性好且负载均衡容易。本项目提出了用于分布式并行处理的OLAP模型,直方图立方HistCube。基于此模型,研究基于Hadoop架构的解决上述问题的分布式并行OLAP技术。研究内容包括:(1)多维聚集查询通用模型;(2)HistCube的计算、存储和更新技术;(3)基于HistCube模型的支持OLAP操作的聚集查询与优化算法;(4)HistCube的分布式并行索引与优化技术。目标是研究能够解决上述问题的用于OLAP的通用模型和高效聚集查询算法及其相关技术。
中文关键词: OLAP;聚集计算;统计直方图;Hadoop;条件过滤
英文摘要:
英文关键词: OLAP;Aggregation computing;Statistical histogram;Hadoop;Condition filtering