项目名称: 面向大数据的相似连接操作关键技术研究
项目编号: No.61402329
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 自动化技术、计算机技术
项目作者: 荣垂田
作者单位: 天津工业大学
项目金额: 25万元
中文摘要: 相似连接作为一个基本的操作在数据管理领域得到了广泛的应用,近年来成为学术界和工业界的研究热点。在大数据环境下,数据类型复杂多样、产生的速度快、规模大,相似连接操作面临新的挑战。本课题以大数据为研究对象对相似连接操作的关键技术进行研究,针对大数据的特征和数据分析的多样化和个性化的需求探索相应的解决方法。本课题的主要研究内容包括:研究异构数据之间的相似连接方法,解决异构数据模型之间的映射问题;研究海量数据的相似连接方法;研究应对快速增长的数据的相似连接方法;针对数据查询和分析的多样化和个性化需求,研究不同相似语义下的相似连接方法;原型系统的开发。通过基础理论、核心技术和系统研制的研究,掌握大数据的相似连接操作的关键技术,为大数据管理和分析系统提供一个非常有用的基础性的相似连接操作。
中文关键词: 相似连接;MapReduce;数据划分;多核;相似度感知的索引
英文摘要: As a primitive operation, the similarity join is widely used in data management, and it has attracted considerable concerns from both academia and industry. In the context of big data, the data is characterized as complicate and diverse data types, high s
英文关键词: similarity join;MapReduce;Data Partition;Multicores;similarity aware indexing