项目名称: 基于查询日志的数据库自动模式匹配技术研究
项目编号: No.61303016
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 自动化技术、计算机技术
项目作者: 丁国辉
作者单位: 沈阳航空航天大学
项目金额: 26万元
中文摘要: 模式匹配广泛应用于数据库相关领域中,例如数据集成、数据空间、数据仓库等。现存匹配技术主要利用模式自身属性、数据实例以及模式结构等信息来发现匹配,就提高匹配的准确性而言,这些信息的利用已处于瓶颈阶段。同时,当前的数据共享、数据交换等问题也使得模式匹配成为一个研究热点,因此,模式匹配领域仍然需要大量的研究。本项目将研究基于数据库查询日志的自动模式匹配技术,目前,此方面的研究寥寥无几。查询日志中包含大量的与模式有关的信息,同时日志中暗含了相似领域内不同应用之间的业务相似性,这些相似性可用来发现模式元素之间的语义对应关系。具体研究内容如下:1) 日志中相似性特征的抽取方法;2) 相似性特征的表达模型;3) 候选匹配的评价技术;4) 最优匹配的搜索技术。同时,构建一个模式匹配原型系统来验证研究成果的正确性和有效性。相关研究成果将有助于提高模式匹配结果的质量,具有重要的理论意义和潜在的应用价值。
中文关键词: 查询日志;数据库模式;自动模式匹配;相似性;
英文摘要: Schema matching is widely used in many database applications, such as data integration, dataspaces and data warehouse,etc. The information mainly used by existing matching technologies includes properties of schema itself, data instances, schema structures, etc. In terms of improvements of match accuracy, the utilization of these information has reached bottleneck state. Meanwhile, current problems of data sharing and data exchange make schema matching a hot research problem. Consequently, lots of work should be paid to schema matching field.This project will study automatical schema matching techniques based on query logs. Nowadays, researches on this subject are very few. There are lots of information about schemas in query logs, and business similarities between different applications in similar domains are implied in query logs. These similarities can be used to find semantics correspondences between schema elements. The specific research in this project includes: 1) the method extracting similarity feature; 2) the expression model of similarity feature; 3) measurement technologies of candidate matches; 4) searching the optimal match. We develop a schema matching prototype system to validate correctness and the effectiveness of our research results. These results contribute to improve the accuracy of schema
英文关键词: Query log;Database schema;Automatic schema matching;Similarity;