项目名称: 云计算环境下面向大数据的在线聚集并行优化机制研究

项目编号: No.61572128

项目类型: 面上项目

立项/批准年度: 2016

项目学科: 自动化技术、计算机技术

项目作者: 宋爱波

作者单位: 东南大学

项目金额: 16万元

中文摘要: 在线聚集是将面向数据完全扫描的精确查询计算转变成面向随机样本的近似查询计算,在当今的大数据时代,这是一个非常重要数据处理方法,尤其是对查询精度要求不是太高的应用,如趋势分析、评估、预测等数据分析场景中。目前,在线聚集已有的研究工作主要是在现有云计算架构下的部署与实现问题,确保其功能的可用性,没有从云计算架构下的数据组织、任务执行等方面对在线聚集进行性能优化。本项目以提高云环境下在线聚集查询的执行性能为目标,针对当前云环境下影响在线聚集查询执行性能的采样效率、数据放置、多查询的并发和估计失效等问题,深入研究云计算PaaS层面向在线聚集查询的数据组织管理、并发查询优化和查询模式切换的有关机理和机制,为大数据近似估计查询的高效并行计算提供技术支撑。本项目将实现一套云计算在线聚集原型系统,在东南大学云计算平台部署验证,并应用到社交网络、电子商务等大数据分析应用中,推动我国大数据处理的研究。

中文关键词: 在线聚集;Hadoop;并行计算;近似估计;

英文摘要: Online aggregation evolves the accurate query processing where data are completely scanned into sample-based approximate query processing, which is a essential data processing technology for big data, especially to those application where accuracy is not as important, such as tendency analysis, evaluation, prediction and other data processing scenarios. Current research work of online aggregation focuses on the deployment and implementation problems in cloud environment to ensure the functionality, but ignores the optimization on data organization and task execution concerning the cloud architecture. This project is dedicate to enhancing the performance of online aggregation in cloud environment, focuses on the sampling performance, data placement, concurrent multi-query and estimation failure problems which challenges the current performance of online aggregation in cloud environment, steps further into the mechanisms on data organization and management, concurrent multi-query optimization and query mode switch in the cloud PaaS layer and finally provides technical support for efficient big data approximate concurrent query. This project will implement the online aggregation prototype system in cloud environment that will be deployed on the Southeast University Cloud Platform and apply it to the big data analyz

英文关键词: Online Aggregation;Hadoop;parallel computing;Approximate estimation;

成为VIP会员查看完整内容
0

相关内容

客服中心智能化技术和应用研究报告(2021年),57页pdf
专知会员服务
47+阅读 · 2022年2月6日
数据中心产业图谱研究报告,41页pdf
专知会员服务
53+阅读 · 2022年1月31日
面向端边云协同架构的区块链技术综述
专知会员服务
48+阅读 · 2021年12月24日
【博士论文】推荐系统多行为建模与隐私保护研究
专知会员服务
52+阅读 · 2021年11月27日
专知会员服务
34+阅读 · 2021年10月17日
专知会员服务
30+阅读 · 2021年10月12日
专知会员服务
34+阅读 · 2021年8月1日
专知会员服务
18+阅读 · 2021年5月16日
基于机器学习的数据库技术综述
专知会员服务
53+阅读 · 2021年1月2日
中国信通院:数据中心产业图谱研究报告
THU数据派
0+阅读 · 2022年2月16日
“热搜”中的分布式数据库 | Q推荐
InfoQ
0+阅读 · 2022年2月15日
作业帮基于Flink的实时计算平台实践
AI前线
0+阅读 · 2022年1月27日
如何降低云计算基础设施的复杂度?
InfoQ
0+阅读 · 2022年1月4日
一场数据架构变革正在来临 | Q推荐
InfoQ
0+阅读 · 2021年12月20日
支持个性化学习的行为大数据可视化研究
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
10+阅读 · 2018年4月19日
小贴士
相关VIP内容
客服中心智能化技术和应用研究报告(2021年),57页pdf
专知会员服务
47+阅读 · 2022年2月6日
数据中心产业图谱研究报告,41页pdf
专知会员服务
53+阅读 · 2022年1月31日
面向端边云协同架构的区块链技术综述
专知会员服务
48+阅读 · 2021年12月24日
【博士论文】推荐系统多行为建模与隐私保护研究
专知会员服务
52+阅读 · 2021年11月27日
专知会员服务
34+阅读 · 2021年10月17日
专知会员服务
30+阅读 · 2021年10月12日
专知会员服务
34+阅读 · 2021年8月1日
专知会员服务
18+阅读 · 2021年5月16日
基于机器学习的数据库技术综述
专知会员服务
53+阅读 · 2021年1月2日
相关资讯
中国信通院:数据中心产业图谱研究报告
THU数据派
0+阅读 · 2022年2月16日
“热搜”中的分布式数据库 | Q推荐
InfoQ
0+阅读 · 2022年2月15日
作业帮基于Flink的实时计算平台实践
AI前线
0+阅读 · 2022年1月27日
如何降低云计算基础设施的复杂度?
InfoQ
0+阅读 · 2022年1月4日
一场数据架构变革正在来临 | Q推荐
InfoQ
0+阅读 · 2021年12月20日
支持个性化学习的行为大数据可视化研究
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员