项目名称: 基于多源异构不确定数据的高效用信息挖掘的研究
项目编号: No.61503092
项目类型: 青年科学基金项目
立项/批准年度: 2016
项目学科: 其他
项目作者: 林浚玮
作者单位: 哈尔滨工业大学
项目金额: 20万元
中文摘要: 由于大数据环境下多源、异构、不确定性、大规模、动态信息资源等特征,如何在复杂的网络环境中挖掘出有用的信息,是目前待解决的重要问题之一。在过去的高效用信息挖掘研究中,主要是处理单一来源、简单型态和确定性数据库,并无法处理大数据环境下的应用。在本项目,我们将创新性地提出 (1) 基于多源、多阶与多维的环境下,提出局部、全局、多层与多维度的四种高效用信息挖掘理论与交换算法。(2) 基于异构环境下,提出泛化、模糊匹配与本体架构的三种高效用信息挖掘理论与融合算法。(3) 基于两种不确定性环境下,分别提出压缩树、链接链表结构与概率-效用列表结构的三种高效用信息挖掘理论与整合算法。本项目的研究除了突破现有研究范围与理论外,并搭建面向多源异构不确定等大数据的高效用信息挖掘验证平台。本项目的研究将对大数据处理问题和高效用信息挖掘的研究产生重大影响,对解决目前大型复杂数据处理与应用等问题起到积极推动作用。
中文关键词: 高效用信息;多源数据;异构数据;不确定数据;大数据
英文摘要: Big Data concern multiple sources, heterogeneous, uncertain, large-scale, growing datasets. It is thus a critical issue to mine useful and meaningful information from the complex big data environment. In the past years, high-utility pattern mining (HUPM) concerns to mine profitable products from one, simple and discriminate database. In this project, we propose three novel frameworks as (1) an exchanged framework with four algorithms to mine high-utility patterns under multiple sources, multiple levels, and multiple dimensions (2) a fusion framework with three algorithms to mine high-utility patterns under heterogeneous environment (3) an integration framework with three algorithms to mine high-utility patterns under two different uncertainty models. We also design a platform and several criteria to evaluate the effectiveness and efficiency of the proposed frameworks. This project can greatly affect the current research of big data mining, especially to mine high-utility patterns from very complex and large scale data sources.
英文关键词: High utility pattern;multi-source data;heterogeneous data;uncertain data;big data