项目名称: 高通量测序的可计算建模与应用基础算法

项目编号: No.91530105

项目类型: 重大研究计划

立项/批准年度: 2016

项目学科: 数理科学和化学

项目作者: 李雷

作者单位: 中国科学院数学与系统科学研究院

项目金额: 25万元

中文摘要: 高通量DNA测序是开展现代分子生物学研究和实现个体化医疗的核心技术。在“高性能科学计算的基础算法与可计算建模”重大研究计划资助的培育项目的前期研究基础上,我们计划针对高通量测序技术中三个基础计算问题:碱基辨识、序列映射、和基因组拼接,建立原创的可计算模型和相应的应用基础算法。第一,继续发展基于Illumina技术的碱基辨识系统,方法采用盲反问题原则和分解复杂问题以实现并行运算,一方面减少错误,一方面提高速度。第二,基于我们原创的SEME算法,根据生物问题对映射速度、灵敏度、特异度的需求,通过概率计算设计相应的序列映射方案。第三,基因组拼接是计算生物学中的数学反问题,挑战主要来源于基因组中广泛存在的重复序列以及测序过程中各种误差造成的不确定性。我们的重点是研发互补于目前主流的单纯基于De Bruijn图的基因组拼接方案。我们的研究将会促进DNA测序为中国的健康、医学、农业等事业服务。

中文关键词: DNA测序;碱基辨识;序列映射;基因组拼接;疾病机制

英文摘要: High throughput sequencing is a key technology for molecular/genomic biology and personalized medicine. Based on our pilot project supported by the “High performance scientific computation: fundamental algorithms and computable modeling, we plan to conduct research in three basic computation problems in high throughput sequencing: base-calling, read mapping, and genome assembly. The project aims at developing original computable models and associated fundamental algorithms. The specific aims are as follows. First, we continue our effort to develop a base-calling system based on the Illumina technology. The major techniques include the blind inversion principle we developed and parallel computation via the decomposition of a complicated problem. Not only need we reduce base-calling errors, but also speed up computation. Second, based on the original SEME method we developed, design read-mapping algorithms that meet the requirement on speed, sensitivity, and specificity for a specific computational biology problem. Third, we view genome assembly as an inverse problem in computational biology. The challenge mainly lies in the uncertainty caused by widespread repetitive elements and all kinds of errors occurred in the sequencing process: library preparation, PCR amplification, instrument, imaging, etc. Our focus is

英文关键词: DNA sequencing;base calling;read mapping;genome assembly;disease mechanism

成为VIP会员查看完整内容
1

相关内容

因果推断在医药图像的应用:数据缺失和数据不匹配
专知会员服务
56+阅读 · 2022年4月2日
【新书】机器学习算法,模型与应用,154页pdf
专知会员服务
93+阅读 · 2022年1月20日
【博士论文】分形计算系统
专知会员服务
32+阅读 · 2021年12月9日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
130+阅读 · 2021年9月20日
【干货书】Python科学编程,451页pdf
专知会员服务
126+阅读 · 2021年6月27日
【干货书】线性代数及其应用,688页pdf
专知会员服务
154+阅读 · 2021年6月10日
【经典书】数据结构与算法,770页pdf
专知会员服务
135+阅读 · 2021年4月15日
「数据数学:从理论到计算」EPFL硬核课程
专知会员服务
42+阅读 · 2021年1月31日
专知会员服务
29+阅读 · 2020年9月13日
图预训练技术在生物计算领域的应用
GenomicAI
0+阅读 · 2022年2月23日
深度学习预测蛋白质-蛋白质相互作用
机器之心
5+阅读 · 2022年1月15日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月15日
Arxiv
19+阅读 · 2019年11月23日
小贴士
相关VIP内容
因果推断在医药图像的应用:数据缺失和数据不匹配
专知会员服务
56+阅读 · 2022年4月2日
【新书】机器学习算法,模型与应用,154页pdf
专知会员服务
93+阅读 · 2022年1月20日
【博士论文】分形计算系统
专知会员服务
32+阅读 · 2021年12月9日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
130+阅读 · 2021年9月20日
【干货书】Python科学编程,451页pdf
专知会员服务
126+阅读 · 2021年6月27日
【干货书】线性代数及其应用,688页pdf
专知会员服务
154+阅读 · 2021年6月10日
【经典书】数据结构与算法,770页pdf
专知会员服务
135+阅读 · 2021年4月15日
「数据数学:从理论到计算」EPFL硬核课程
专知会员服务
42+阅读 · 2021年1月31日
专知会员服务
29+阅读 · 2020年9月13日
相关资讯
图预训练技术在生物计算领域的应用
GenomicAI
0+阅读 · 2022年2月23日
深度学习预测蛋白质-蛋白质相互作用
机器之心
5+阅读 · 2022年1月15日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员