项目名称: 高通量RNA-Seq数据的偏差建模和差异表达基因识别
项目编号: No.61203282
项目类型: 青年科学基金项目
立项/批准年度: 2013
项目学科: 自动化技术、计算机技术
项目作者: 王颖
作者单位: 厦门大学
项目金额: 24万元
中文摘要: 本项目对高通量RNA-Seq数据的偏差建模和差异表达基因识别展开研究。本项目将碱基视为信息处理的基本单位,而外显子、基因等都可视为碱基单元的某种积分。分析偏差时,将可能的偏差因素作为解释变量,观测到的碱基短序列匹配数作为响应变量,通过采样获取各因素对短序列分布的影响趋势,从而获取正确的模型结构,构建针对不同测序协议、平台适用的模型结构;提出两步骤优化方法,采用权系数与最小二乘的混合估计法、EM算法,对建立的线性或非线性模型寻优偏差权重,修正碱基位上的短序列匹配数。基于修正结果,提出基于碱基单元的差异表达基因识别方法。通过利用碱基的位置对应信息和短序列匹配数信息,结合线性拟合、样条回归、L2误差范数等技术识别不同条件下碱基序列上的匹配数差异的显著性,进而识别出差异表达基因。以上思路在统计方法中引入系统辨识的思想,以碱基为单位,充分利用RNA-Seq数据带来的高分辨率信息进行后续的数据分析。
中文关键词: 差异表达;宏基因组;高通量测序;马尔科夫模型;k-tuple
英文摘要: This proposal aims to develop the methods to model the sequencing bias and identify the differentially expressed genes with RNA-Seq datasets, produced with next generation sequencing technique. Different with traditional processes, all the analysis is bas
英文关键词: Differential expressed;Metagenome;Next generation sequencing;Markov Modeling;k-tuple