项目名称: 基于高维数据特征提取的蛋白质二级结构预测
项目编号: No.61375013
项目类型: 面上项目
立项/批准年度: 2013
项目学科: 自动化技术、计算机技术
项目作者: 刘毅慧
作者单位: 齐鲁工业大学
项目金额: 73万元
中文摘要: 蛋白质二级结构预测是公认的生物信息学领域的国际性难题。张春霆院士认为"仅仅应用氨基酸组成(对应第一代算法)来表示蛋白质的一级结构是不充分的,因为氨基酸的排列信息被丢失"。因为蛋白质长链都是由20种基本的氨基酸链接而成,蛋白质序列的种类随肽链长度n的增加呈指数倍增长。在蛋白质二级结构预测研究中, 由于目前分类模型中仅能局限于考虑 n<4 的情形,当肽链长度n为4时, 氨基酸序列向量的维度增至160000, 高维数据导致的'维灾'无法进行运算。在本研究中,我们提出了基于信号处理的特征提取方法,提取高维蛋白质序列向量的关键特征,去除冗余信息,同时对提取的特征加以优化。使用优化的特征来预测蛋白质二级结构。目标是探索肽链长度n为4、5、6﹑7﹑8时,氨基酸序列与蛋白质二级结构之间的关系,找出关键的特征,从而提高蛋白质二级结构的预测精度。
中文关键词: 蛋白质二级结构;大数据样本;蛋白质长度;多分类器精准预测模型;特征提取
英文摘要: The prediction of protein secondary structure is one of the major issues in bioinformatics.It is generally accepted that the protein structure is determined by its amino acid sequence. In the prediction of protein secondary prediction, feature extraction
英文关键词: protein secondary structure;big data;protein length;multiple accurate prediction models;feature extraction