项目名称: 基于新一代测序数据的全基因组拼接组装算法研究
项目编号: No.61173085
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 计算机科学学科
项目作者: 王亚东
作者单位: 哈尔滨工业大学
项目金额: 55万元
中文摘要: 近几年,新一代测序技术对基因组科学的研究产生了深远影响,尤其是基于新一代测序技术的基因组从头测序已经成为研究热点。一般而言,测序新物种产生2-20亿条reads的海量短序列(相当于20-200 GB的数据量),对从头测序的全基因组拼接组装提出了严峻的挑战。因此,发展短序列拼接组装算法生成全基因组序列是从头测序面临的巨大挑战! 本项目拟结合新一代测序数据的碱基出错特征,优化配对数据,设计分批的数据处理策略,提出基于拼接信息累计与数据特征相结合的评分方法,并进一步提出reads引导的短序列拼接的核心算法,最后采用GC含量校正拼接结果中重复段的拷贝数,从而发展快速、高精度的全基因组短序列拼接组装算法,建立拼接组装系统。本项目的完成将使我国在基因组从头测序的理论与实践方面上一新台阶。
中文关键词: 基因组拼接;序列比对;高通量测序数据;配对数据;
英文摘要:
英文关键词: Genome assembly;Sequence assembly;High throughput sequencing data;Paired-end reads;