项目名称: 高通量基因数据分析中的 Bayes 统计方法

项目编号: No.10801123

项目类型: 青年科学基金项目

立项/批准年度: 2009

项目学科: 金属学与金属工艺

项目作者: 张伟平

作者单位: 中国科学技术大学

项目金额: 16万元

中文摘要: 本项目的目标是研究高通量基因数据分析中的 Bayes 统计推断方法。高通量基因数据,如微阵列基因表达数据和单核苷酸多肽标记(SNP)数据等,因其变量维数远远大于数据个数、误差结构复杂等特点为传统统计的理论和方法带来了新的挑战和研究方向。Bayes 统计中先验信息的使用可以增加和综合信息,以及对数据进行平滑和降维,加之现在MCMC 计算方法已在很大范围内解决了Bayes 统计的计算困难问题,使得Bayes 统计尤其适合于对高通量基因数据进行统计建模和分析。本项目将首先从高通量基因数据分析中已广泛应用的线性模型和广义线性模型入手,发展稳健先验下的Bayes 和经验Bayes 统计推断方法并研究其性质,进而研究其在微阵列基因表达数据等高通量基因数据分析中的应用;对SNP 数据单体型概率的估计问题,将侧重研究多层Bayes 方法的应用并发展快速的计算方法。我们计划将这些方法应用于实际数据分析。

中文关键词: 高通量基因数据;线性模型;广义线性模型;Bayes 统计

英文摘要: The main purpose of this project is to study the Bayes statistical inference methods in hight-throughput genetic data analysis. High-throughput genetic data, such as microarray gene expression data and single nucleotide polymorphism (SNP) data, take a great challenge and new research direction to the classical statistics because of the curse of dimensionality and complex error structure. In Bayes statistics, a priori can increase and integrate information, and makes the data smooth and dimension reduction; On the other hand, carefully crafted Markov chain Monte Carlo (MCMC) algorithms executed on today's fast computers are able to solve a phenomenal range of computing problems in Bayes statistics inference, all these make Bayes statistics particular attractive in modelling and analyzing hight-throughput genetic data.In this project, we first study the widely used linear model and generalized linear model in high-throughput genetic data analysis, develop the Bayes and empirical Bayes approaches under robust prior and obtain their properties, and then study their application in gene microarray data analysis. For the estimation of SNP haplotypes, we will focus on studying the application of hierarchical Bayes method and develop efficient algorithms. we will apply these developed new mthods to real data analysis.

英文关键词: High-throughput genetic data; linear model; generalized linear model; Bayes statistics

成为VIP会员查看完整内容
1

相关内容

对于给定d个属性描述的示例x=(x1,x2,......,xd),通过属性的线性组合来进行预测。一般的写法如下: f(x)=w'x+b,因此,线性模型具有很好的解释性(understandability,comprehensibility),参数w代表每个属性在回归过程中的重要程度。
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
135+阅读 · 2021年9月20日
【干货书】R语言探索性数据分析,218页pdf
专知会员服务
62+阅读 · 2021年9月14日
专知会员服务
53+阅读 · 2021年8月29日
【实用书】Python数据分析手册,437页pdf带你实战数据清洗
专知会员服务
82+阅读 · 2021年7月31日
【干货书】利用 Python 进行数据分析,470页pdf
专知会员服务
113+阅读 · 2021年3月13日
【干货书】金融数学概念和计算方法的导论,290页pdf
专知会员服务
64+阅读 · 2020年11月16日
商业数据分析,39页ppt
专知会员服务
161+阅读 · 2020年6月2日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
115+阅读 · 2020年5月9日
2022 年,捕捉这 12 个数据和分析趋势!
InfoQ
0+阅读 · 2022年4月22日
漫谈统计学习之经验贝叶斯(Empirical Bayes)
PaperWeekly
3+阅读 · 2022年3月23日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Pre-training helps Bayesian optimization too
Arxiv
0+阅读 · 2022年4月29日
Max-Margin Contrastive Learning
Arxiv
18+阅读 · 2021年12月21日
Arxiv
11+阅读 · 2018年1月15日
小贴士
相关VIP内容
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
135+阅读 · 2021年9月20日
【干货书】R语言探索性数据分析,218页pdf
专知会员服务
62+阅读 · 2021年9月14日
专知会员服务
53+阅读 · 2021年8月29日
【实用书】Python数据分析手册,437页pdf带你实战数据清洗
专知会员服务
82+阅读 · 2021年7月31日
【干货书】利用 Python 进行数据分析,470页pdf
专知会员服务
113+阅读 · 2021年3月13日
【干货书】金融数学概念和计算方法的导论,290页pdf
专知会员服务
64+阅读 · 2020年11月16日
商业数据分析,39页ppt
专知会员服务
161+阅读 · 2020年6月2日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
115+阅读 · 2020年5月9日
相关资讯
2022 年,捕捉这 12 个数据和分析趋势!
InfoQ
0+阅读 · 2022年4月22日
漫谈统计学习之经验贝叶斯(Empirical Bayes)
PaperWeekly
3+阅读 · 2022年3月23日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员