项目名称: 泛数据双向包容连接查询处理关键技术研究
项目编号: No.61373023
项目类型: 面上项目
立项/批准年度: 2013
项目学科: 自动化技术、计算机技术
项目作者: 王朝坤
作者单位: 清华大学
项目金额: 76万元
中文摘要: 连接及相似连接是数据管理领域的一个基础而重要的研究问题,学者们已在关系、向量、字符串、树及图等众多类型数据的相似连接方面做了大量研究工作。尤其随着大数据时代的来临,海量异构社会化数据的相似连接问题吸引着越来越多人的关注。然而,该方向已有研究成果还远不能满足现实中的应用需求。本项目旨在提出并研究泛数据双向包容连接查询的概念、技术和方法。设计支持泛数据双向包容连接查询的扩展关系代数;提出基于期望域和事实域双域索引的泛数据双向包容连接查询处理算法;基于分治策略的泛数据近似双向包容连接查询处理技术,以及基于归一策略的泛数据近似双向包容连接查询处理技术;建立泛数据的自动数据映射模型,提出基于MapReduce的大规模泛数据近似双向包容连接的有效查询处理算法。泛数据双向包容连接问题具有重要的理论研究意义和实际应用价值,本项目的研究成果有望广泛应用于交友推荐、房屋租赁、求职招聘等社会生产生活关键领域。
中文关键词: 双向相似连接;偏好连接;双向包容连接;泛数据;数据映射
英文摘要: Join and Similarity Join are basic but important research problems of the data management field. Researchers have conducted a lot of research works on the similarity joins on various data types, including relations, vectors, strings, trees, graphs. Especi
英文关键词: Bi-Similairyt Join;Preference Join;Bi-Containment Join;Universal Data;Data Mapping