项目名称: 基于DNA理化特性的真核生物启动子计算识别方法研究
项目编号: No.31401136
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 生物科学
项目作者: 杨曦
作者单位: 河南科技大学
项目金额: 20万元
中文摘要: 本项目拟以真核生物启动子具有独特的理化和结构性质为突破口,采用机器学习领域的人工神经网络、高斯混合模型、贝叶斯分类器等方法建立真核生物启动子预测模型,提高启动子预测的准确率和模型的通用性。本项目创新点在于,将“真核生物启动子的生物学功能是通过其独特的理化结构来实现”这一思想引入建模过程,在使用经典序列特征的基础上拟增加序列上下文特征和DNA理化特征,捕捉启动子序列隐含的理化与结构特性,并在预测模型各层结构上做合理改动,使各种特征发挥更充分的区分作用,在选取多个物种作为训练样本的基础上,建立可靠的共识模型,解决以往预测工具过分依赖DNA序列组成信息以及仅对特定物种有效等问题。本项目的开展对寻找区分启动子数据与非启动子数据的规律具有重要意义,为此类生物分类问题提供更有效的编码理论,同时对基因预测中外显子内含子界限准确分割问题、转录起始位点的准确定位都具有重要的借鉴价值。
中文关键词: 启动子预测;层级模型;DNA理化特性;位置权重矩阵;人工神经网络
英文摘要: The project is based on the fact that eukaryotic promoters have special physicochemical and conformational properties, and aims to establish a new eukaryotic promoter prediction model by using several important machine learning methods, such as artificial
英文关键词: Promoter prediction;Hierarchical model;DNA physicochemical features;Position weight matrix;Artificial neural network