项目名称: 基于新一代测序数据的非比对统计功效的研究

项目编号: No.11205061

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 物理学II

项目作者: 刘雪梅

作者单位: 华南理工大学

项目金额: 22万元

中文摘要: 转录因子结合位点的识别及基因水平转移的预测是目前生物学研究的核心问题。目前已有许多非比对统计方法来计算及用实验的方法来解决这两个问题。然而,在这些方法中,除过一些模拟研究以外,用统计值的统计功效方法来研究该问题尤其少,而统计分析的误差将影响到所构建演化树的可靠性。本项目将在基于非比对D2统计值的基础上展开以下研究。(1)建立背景序列为高阶马尔可夫过程的隐马尔可夫模型;通过Bernoulli分布建立一种转换模型来研究两种情况下统计功效的分布情况,并通过模拟给出两种理论结果和图解。(2)开发适用于NGS 数据比较的非比对方法并研究其统计功效,期望有个近似统计极值,其统计功效在序列长度趋于无穷大时快速接近于1。(3)通过研究统计值与演化距离的关系,构建演化树。该研究在同源序列分析、基因水平转移及系统演化树构造等领域具有一定的应用价值,可为生物学物种分类提供可靠的理论依据。

中文关键词: 非比对方法;隐马尔科夫模型;统计功效;模体;

英文摘要: The identification of transcription factor binding sites and detecting horizontally transferred genes between different organisms are the central problems in biological studies. Many computational and experimental methods have been developed to detect TFBS and HTG. However, the studies of the statistical power of these methods in detecting them are relatively rare except for some simulation studies. And the statistical analysis of the error will affect the reliability of the evolutionary tree constructed. We will carry out this study based on D2 statistic. (1) We will develop Background sequences with a high order Markov process using a hidden Markov model; By the Bernoulli distribution, we build an alternative model to study the power of the statistic under two situations by giving both theoretical results and illustrating them by simulations. (2) We will develop a new alignment-free sequence comparison based on NGS data and study their power. We hope that there is an approximate rate extremum, when the length of sequences tends to infinite the power close to 1. (3) From study the relation between statistic and evolutionary distance, we can construct evolutionary trees. The study in the homologous sequence analysis and the evolutionary tree constructed has a certain value and it can help to provide a reliable t

英文关键词: alignment-free comparison;Hidden Markov model;power;motif;

成为VIP会员查看完整内容
0

相关内容

【干货书】概率,统计与数据,513页pdf
专知会员服务
137+阅读 · 2021年11月27日
专知会员服务
118+阅读 · 2021年10月6日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
135+阅读 · 2021年9月20日
专知会员服务
53+阅读 · 2021年8月29日
专知会员服务
16+阅读 · 2021年8月6日
专知会员服务
49+阅读 · 2021年8月4日
【经典书】机器学习统计学,476页pdf
专知会员服务
122+阅读 · 2021年7月19日
【经典书】数理统计学,142页pdf
专知会员服务
97+阅读 · 2021年3月25日
【经典书】Python金融大数据分析,566页pdf
专知会员服务
123+阅读 · 2020年8月1日
【新书册】贝叶斯神经网络,41页pdf
专知会员服务
178+阅读 · 2020年6月3日
【干货书】概率,统计与数据,513页pdf
专知
35+阅读 · 2021年11月27日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
14+阅读 · 2019年11月26日
小贴士
相关VIP内容
【干货书】概率,统计与数据,513页pdf
专知会员服务
137+阅读 · 2021年11月27日
专知会员服务
118+阅读 · 2021年10月6日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
135+阅读 · 2021年9月20日
专知会员服务
53+阅读 · 2021年8月29日
专知会员服务
16+阅读 · 2021年8月6日
专知会员服务
49+阅读 · 2021年8月4日
【经典书】机器学习统计学,476页pdf
专知会员服务
122+阅读 · 2021年7月19日
【经典书】数理统计学,142页pdf
专知会员服务
97+阅读 · 2021年3月25日
【经典书】Python金融大数据分析,566页pdf
专知会员服务
123+阅读 · 2020年8月1日
【新书册】贝叶斯神经网络,41页pdf
专知会员服务
178+阅读 · 2020年6月3日
相关资讯
【干货书】概率,统计与数据,513页pdf
专知
35+阅读 · 2021年11月27日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员