项目名称: 面向大数据备份的重复数据删除关键技术研究
项目编号: No.61402061
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 自动化技术、计算机技术
项目作者: 谭玉娟
作者单位: 重庆大学
项目金额: 26万元
中文摘要: 在大数据时代,受大数据自身特点的影响,大数据备份呈现出新的特征,包括备份方式的改变,大数据对实时备份和恢复性能要求的提高,大数据的数据类型和数据价值的多样化以及备份服务等级的多样化等,基于传统数据备份的重复数据删除方法受到了空前的挑战。本项目拟研究多项适用于大数据备份的重复数据删除关键技术,包括(1)基于语义感知的多粒度冗余鉴别方法,根据语义环境进行多粒度的冗余数据鉴别,提升重复数据删除吞吐率,满足大数据的高性能数据备份需求;(2)基于数据重复相关性的数据分布和放置策略,优化存储节点内和节点间的数据布局,提升实时恢复性能,满足大数据的高性能数据恢复需求;(3)数据冗余度估算模型和自适应的多性能目标优化模型,在数据去重前估算基于数据类型的数据冗余度,配置优化的数据去重方法,满足大数据所需的多种数据备份服务等级需求。本项目拟通过对上述内容的研究,最终构建适用于大数据备份的重复数据删除存储系统。
中文关键词: 重复数据删除;大数据备份;冗余度鉴别;数据布局;数据碎片
英文摘要: In the era of big data, due to the inherent characteristics of big data, big data backup has shown many new features, such as shifting from full backups to incremental backups, posing the higher demand for data backup and restore performance, requiring mo
英文关键词: data deduplication;big data backup;redundancy identification;data placement;data fragments