基于熵的公共卫生大数据信息挖掘方法研究 - 专知基金

会员服务 ·

0

信息熵 · 软件开发 · 风险预测 ·

2013 年 12 月 31 日

基于熵的公共卫生大数据信息挖掘方法研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 基于熵的公共卫生大数据信息挖掘方法研究

项目编号： No.81402763

项目类型： 青年科学基金项目

立项/批准年度： 2014

项目学科： 医药、卫生

项目作者： 张汝阳

作者单位： 南京医科大学

项目金额： 23万元

中文摘要： 大数据是针对特定目标多种数据的集合，特征为：体量巨大、形式多样、快速更新、价值隐藏。目前大数据分析的应用、方法仍存在缺陷。研究者往往局限于分析单一数据，基于多源数据分析的研究缺乏。常见机器学习算法并非专门为多维变量间交互作用而设计，容易遗漏高价值的交互信息。此外，现有方法效率低，很难短时间内实现大数据更新、分析结果同步的目标。信息熵因其速度优势，在数据挖掘领域具有重要地位。但是，其相关方法仍有不足，表现为：要求变量相互独立、统计分析过于耗时、无法控制混杂因素、等。公共卫生领域的大数据隐藏着高价值的信息，却缺乏高效、合理的方法。本研究的思路是：(1) 站在公共卫生大数据的层面，从多种来源、动态更新的数据中挖掘信息，建立更加准确的肿瘤风险预测模型。(2) 利用信息熵的优点，针对现有方法的不足，探索计算速度快、统计性能好的分析方法和挖掘策略。(3) 编制CPU、GPU并行计算程序，提供实用工具。

中文关键词： 信息熵；交互作用；降维策略；软件开发；风险预测

英文摘要： Big data is a combination of a series of datasets for a specified research purpose, characterized with volume, variety, velocity and veracity. However, the application or the method of public health big data analysis still needs improvement. Researchers a

英文关键词： Information entropy；Interaction；Dimensionality reduction strategy；Software development；Risk prediction

成为VIP会员查看完整内容

2

相关内容

信息熵

信息理论的鼻祖之一Claude E. Shannon把信息（熵）定义为离散随机事件的出现概率。所谓信息熵，是一个数学上颇为抽象的概念，在这里不妨把信息熵理解成某种特定信息的出现概率。而信息熵和热力学熵是紧密相关的。

【干货书】R语言探索性数据分析，218页pdf

【干货书】R语言探索性数据分析，218页pdf

专知会员服务

62+阅读 · 2021年9月14日

如何挖掘医疗数据？看这份KDD2021《异构医疗数据挖掘》教程，附Slides

专知会员服务

47+阅读 · 2021年8月19日

电子病历文本挖掘研究综述

专知会员服务

73+阅读 · 2021年3月27日

【干货书】利用 Python 进行数据分析，470页pdf

【干货书】利用 Python 进行数据分析，470页pdf

专知会员服务

119+阅读 · 2021年3月13日

基于大规模结构化病例数据的新型冠状病毒传播特征和感染人群分析

基于大规模结构化病例数据的新型冠状病毒传播特征和感染人群分析

专知会员服务

29+阅读 · 2020年12月27日

【AAAI2021】归纳关系推理的传递信息传递

专知会员服务

47+阅读 · 2020年12月20日

复杂网络的双曲空间表征学习方法

专知会员服务

47+阅读 · 2020年11月13日

【ICML2020】基于贝叶斯元学习在关系图上进行小样本关系抽取

【ICML2020】基于贝叶斯元学习在关系图上进行小样本关系抽取

专知会员服务

38+阅读 · 2020年9月5日

Python地理数据处理，362页pdf，Geoprocessing with Python

Python地理数据处理，362页pdf，Geoprocessing with Python

专知会员服务

116+阅读 · 2020年5月24日

【CCF优秀博士学位论文奖-2019提名】增广信息学习，南京大学朱越

【CCF优秀博士学位论文奖-2019提名】增广信息学习，南京大学朱越

专知会员服务

39+阅读 · 2019年11月8日

PyGOD: Python 图数据异常检测开源工具库

PyGOD: Python 图数据异常检测开源工具库

图与推荐

6+阅读 · 2022年4月11日

基于机器学习的自动化网络流量分析

基于机器学习的自动化网络流量分析

CCF计算机安全专委会

5+阅读 · 2022年4月8日

新冠如何可视化分析？「流行病数据可视分析」最新2022研究综述

新冠如何可视化分析？「流行病数据可视分析」最新2022研究综述

专知

2+阅读 · 2022年4月4日

主成分分析用于可视化（附链接）

主成分分析用于可视化（附链接）

大数据文摘

1+阅读 · 2022年3月14日

医学图像数据读取及预处理方法总结

医学图像数据读取及预处理方法总结

极市平台

22+阅读 · 2022年1月4日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

论文浅尝 | 基于深度序列模型的知识图谱补全

论文浅尝 | 基于深度序列模型的知识图谱补全

开放知识图谱

29+阅读 · 2019年5月19日

大众点评搜索基于知识图谱的深度学习排序实践

大众点评搜索基于知识图谱的深度学习排序实践

数据猿

11+阅读 · 2019年1月22日

【大数据】数据挖掘与数据分析知识流程梳理

【大数据】数据挖掘与数据分析知识流程梳理

产业智能官

13+阅读 · 2017年9月22日

面向大数据的信息可视化设计方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

旅游地理本体与众包旅游信息的时空语义挖掘研究

国家自然科学基金

1+阅读 · 2014年12月31日

全基因组关联研究中基因-基因、基因-环境交互作用统计分析方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

面向海量信息的可信服务预测方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

社会媒体中基于主题模型的图像表示与识别方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

富信息环境下基于兴趣模式的推荐系统研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于云计算的公共信息服务机制研究

国家自然科学基金

1+阅读 · 2012年12月31日

不完全信息挖掘中的若干问题研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于多传感器及多元监测数据的瓦斯预警理论与方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Functional Calibration under Non-Probability Survey Sampling

Arxiv

0+阅读 · 2022年4月20日

An improved central limit theorem and fast convergence rates for entropic transportation costs

Arxiv

0+阅读 · 2022年4月19日

Distilling and Transferring Knowledge via cGAN-generated Samples for Image Classification and Regression

Arxiv

0+阅读 · 2022年4月19日

StableMoE: Stable Routing Strategy for Mixture of Experts

Arxiv

0+阅读 · 2022年4月18日

Automated Data Augmentations for Graph Classification

Automated Data Augmentations for Graph Classification

Arxiv

1+阅读 · 2022年4月18日

Effective numerical computation of $p(x)-$Laplace equations in 2D

Arxiv

0+阅读 · 2022年4月17日

Entropy-based Active Learning for Object Detection with Progressive Diversity Constraint

Arxiv

0+阅读 · 2022年4月17日

Optimally Reconfiguring List and Correspondence Colourings

Arxiv

0+阅读 · 2022年4月17日

Cannikin's Law in Tensor Modeling: A Rank Study for Entanglement and Separability in Tensor Complexity and Model Capacity

Arxiv

0+阅读 · 2022年4月16日

Statistical-Computational Trade-offs in Tensor PCA and Related Problems via Communication Complexity

Arxiv

0+阅读 · 2022年4月15日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关VIP内容

【干货书】R语言探索性数据分析，218页pdf

【干货书】R语言探索性数据分析，218页pdf

专知会员服务

62+阅读 · 2021年9月14日

如何挖掘医疗数据？看这份KDD2021《异构医疗数据挖掘》教程，附Slides

专知会员服务

47+阅读 · 2021年8月19日

电子病历文本挖掘研究综述

专知会员服务

73+阅读 · 2021年3月27日

【干货书】利用 Python 进行数据分析，470页pdf

【干货书】利用 Python 进行数据分析，470页pdf

专知会员服务

119+阅读 · 2021年3月13日

基于大规模结构化病例数据的新型冠状病毒传播特征和感染人群分析

基于大规模结构化病例数据的新型冠状病毒传播特征和感染人群分析

专知会员服务

29+阅读 · 2020年12月27日

【AAAI2021】归纳关系推理的传递信息传递

专知会员服务

47+阅读 · 2020年12月20日

复杂网络的双曲空间表征学习方法

专知会员服务

47+阅读 · 2020年11月13日

【ICML2020】基于贝叶斯元学习在关系图上进行小样本关系抽取

【ICML2020】基于贝叶斯元学习在关系图上进行小样本关系抽取

专知会员服务

38+阅读 · 2020年9月5日

Python地理数据处理，362页pdf，Geoprocessing with Python

Python地理数据处理，362页pdf，Geoprocessing with Python

专知会员服务

116+阅读 · 2020年5月24日

【CCF优秀博士学位论文奖-2019提名】增广信息学习，南京大学朱越

【CCF优秀博士学位论文奖-2019提名】增广信息学习，南京大学朱越

专知会员服务

39+阅读 · 2019年11月8日

相关资讯

PyGOD: Python 图数据异常检测开源工具库

PyGOD: Python 图数据异常检测开源工具库

图与推荐

6+阅读 · 2022年4月11日

基于机器学习的自动化网络流量分析

基于机器学习的自动化网络流量分析

CCF计算机安全专委会

5+阅读 · 2022年4月8日

新冠如何可视化分析？「流行病数据可视分析」最新2022研究综述

新冠如何可视化分析？「流行病数据可视分析」最新2022研究综述

专知

2+阅读 · 2022年4月4日

主成分分析用于可视化（附链接）

主成分分析用于可视化（附链接）

大数据文摘

1+阅读 · 2022年3月14日

医学图像数据读取及预处理方法总结

医学图像数据读取及预处理方法总结

极市平台

22+阅读 · 2022年1月4日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

论文浅尝 | 基于深度序列模型的知识图谱补全

论文浅尝 | 基于深度序列模型的知识图谱补全

开放知识图谱

29+阅读 · 2019年5月19日

大众点评搜索基于知识图谱的深度学习排序实践

大众点评搜索基于知识图谱的深度学习排序实践

数据猿

11+阅读 · 2019年1月22日

【大数据】数据挖掘与数据分析知识流程梳理

【大数据】数据挖掘与数据分析知识流程梳理

产业智能官

13+阅读 · 2017年9月22日

相关基金

面向大数据的信息可视化设计方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

旅游地理本体与众包旅游信息的时空语义挖掘研究

国家自然科学基金

1+阅读 · 2014年12月31日

全基因组关联研究中基因-基因、基因-环境交互作用统计分析方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

面向海量信息的可信服务预测方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

社会媒体中基于主题模型的图像表示与识别方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

富信息环境下基于兴趣模式的推荐系统研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于云计算的公共信息服务机制研究

国家自然科学基金

1+阅读 · 2012年12月31日

不完全信息挖掘中的若干问题研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于多传感器及多元监测数据的瓦斯预警理论与方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Functional Calibration under Non-Probability Survey Sampling

Arxiv

0+阅读 · 2022年4月20日

An improved central limit theorem and fast convergence rates for entropic transportation costs

Arxiv

0+阅读 · 2022年4月19日

Distilling and Transferring Knowledge via cGAN-generated Samples for Image Classification and Regression

Arxiv

0+阅读 · 2022年4月19日

StableMoE: Stable Routing Strategy for Mixture of Experts

Arxiv

0+阅读 · 2022年4月18日

Automated Data Augmentations for Graph Classification

Automated Data Augmentations for Graph Classification

Arxiv

1+阅读 · 2022年4月18日

Effective numerical computation of $p(x)-$Laplace equations in 2D

Arxiv

0+阅读 · 2022年4月17日

Entropy-based Active Learning for Object Detection with Progressive Diversity Constraint

Arxiv

0+阅读 · 2022年4月17日

Optimally Reconfiguring List and Correspondence Colourings

Arxiv

0+阅读 · 2022年4月17日

Cannikin's Law in Tensor Modeling: A Rank Study for Entanglement and Separability in Tensor Complexity and Model Capacity

Arxiv

0+阅读 · 2022年4月16日

Statistical-Computational Trade-offs in Tensor PCA and Related Problems via Communication Complexity

Arxiv

0+阅读 · 2022年4月15日

微信扫码咨询专知VIP会员