项目名称: 基于EMD距离的数据流分布式相似性查询处理关键技术研究
项目编号: No.61402494
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 自动化技术、计算机技术
项目作者: 许嘉
作者单位: 广西大学
项目金额: 26万元
中文摘要: 大数据时代的数据分析不但要应对大数据规模之“大”,更要应对大数据产生之“快”,因为许多实际应用中的数据具有时效性。数据流的相似性查询是数据流分析挖掘的重要操作,能够返回和查询对象相似的流数据对象,被广泛应用于对象去重和分类。相似性度量函数是影响查询结果质量的重要因素。研究表明,相比于Lp范式距离,EMD距离量化的数据相似性更符合人们的直观认识。然而求解EMD距离却具有高达三次方的计算复杂度,阻碍了其在数据流快速分析中的应用。新型分布式数据流处理平台的出现为实时处理基于EMD距离的相似性查询提供了可能。本课题基于新型分布式数据流处理平台,研究高效的基于EMD距离的数据流分布式相似性查询处理关键技术,包括基于EMD距离的数据流分布式处理模型、查询优化策略以及系统优化机制,并结合以上技术实现一个原型系统。本课题具有重要的理论意义和应用价值,可以为其它计算密集型数据流分析应用提供实时处理实施范例。
中文关键词: 数据流;分布式处理;EMD距离;相似性查询;大数据
英文摘要: In the era of big data, besides dealing with large volume of data, a more challenging work for data analysis is to cope with fast generating streaming data, since the data generated in many practical applications are time-sensitive. Similarity query over
英文关键词: Data stream;Distributed processing;Earth Mover's Distance;Similarity queries;Big data