项目名称: 高度可扩展的数据仓库数据编码方法及查询处理新技术研究
项目编号: No.61170013
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 计算机科学学科
项目作者: 覃雄派
作者单位: 中国人民大学
项目金额: 55万元
中文摘要: 在数据分析领域,数据量急剧膨胀。数据仓库建模的主要方法是星型模型,而负载主要是聚集查询。本研究的内容,是面向大规模机群环境的星型模型数据的高效分析技术。研究的主要思路,是通过维表的层次编码技术消除查询处理过程中的星型连接操作,使得数据容易分布到大规模机群上,实现并行处理,从而提高分析性能。围绕维度层次编码的基本思想,我们拟在数据存储和压缩、新的索引技术、新的查询优化和任务调度技术、并行查询执行技术、系统的容错保证等方面展开研究。该研究着眼于系统的可扩展性,通过数据编码方法消除系统的扩展瓶颈,具有理论意义;基于大规模廉价机群,利用并行处理实现数据的快速分析,有利用降低系统成本和实现数据分析的大众化,具有现实的应用前景。
中文关键词: 大数据;在线分析处理;层次编码;索引技术;查询优化
英文摘要:
英文关键词: Big Data;Online Analytic Processing;Hierarchical Encoding;Indexing Techniques;Query Optimization