项目名称: 基于熵的公共卫生大数据信息挖掘方法研究
项目编号: No.81402763
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 医药、卫生
项目作者: 张汝阳
作者单位: 南京医科大学
项目金额: 23万元
中文摘要: 大数据是针对特定目标多种数据的集合,特征为:体量巨大、形式多样、快速更新、价值隐藏。目前大数据分析的应用、方法仍存在缺陷。研究者往往局限于分析单一数据,基于多源数据分析的研究缺乏。常见机器学习算法并非专门为多维变量间交互作用而设计,容易遗漏高价值的交互信息。此外,现有方法效率低,很难短时间内实现大数据更新、分析结果同步的目标。信息熵因其速度优势,在数据挖掘领域具有重要地位。但是,其相关方法仍有不足,表现为:要求变量相互独立、统计分析过于耗时、无法控制混杂因素、等。公共卫生领域的大数据隐藏着高价值的信息,却缺乏高效、合理的方法。本研究的思路是:(1) 站在公共卫生大数据的层面,从多种来源、动态更新的数据中挖掘信息,建立更加准确的肿瘤风险预测模型。(2) 利用信息熵的优点,针对现有方法的不足,探索计算速度快、统计性能好的分析方法和挖掘策略。(3) 编制CPU、GPU并行计算程序,提供实用工具。
中文关键词: 信息熵;交互作用;降维策略;软件开发;风险预测
英文摘要: Big data is a combination of a series of datasets for a specified research purpose, characterized with volume, variety, velocity and veracity. However, the application or the method of public health big data analysis still needs improvement. Researchers a
英文关键词: Information entropy;Interaction;Dimensionality reduction strategy;Software development;Risk prediction