项目名称: 基于云计算平台的下一代测序数据错误修正算法研究与实现

项目编号: No.31501070

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 生物科学

项目作者: 赵亮

作者单位: 广西大学

项目金额: 19万元

中文摘要: 下一代测序数据正以革新化的态势影响着生命科学、医学等相关领域的研究,因其能从根本上揭示这些外在表象的内在本质。然而,由于受到测序平台、测序方法以及基因自身序列结构的影响,测序数据都或多或少存在着替换错误和插入删除错误。这些错误对后续数据分析提出了极大挑战。现有错误修正方法要么只能处理小数据,要么降低准确度来处理大规模数据。鉴于此,该课题设计一种基于云计算平台的、可处理超大规模数据集的、同时保证处理精确度的分布式并行算法。该算法把MapReduce分布式思想和overlap-layout-consensus数据处理模型有机的结合起来,同时利用统计模型修改测序错误。其主要优点体现在:MapReduce思想可以分布式并行处理超大规模数据;overlap-layout-consensus模型可以保持数据的完整型;利用统计模型修改错误碱基保证算法准确性。

中文关键词: 错误修正;下一代测序;云计算

英文摘要: Next-generation sequencing data is making essential impact on the biological and biomedical studies due to its ability in discovering the relationship between genotypes and phenotypes per se. However, the data contains sequencing errors inevitably because of the bias introduced by the sequencing platforms and approaches. These errors, substitutions, insertions and deletions, pose great challenge for data analysis. Existing error correction approaches partially solve the problem by only handling small data or reduce the performance to cope with large data. To solve this problem, we propose an algorithm that can handle large dataset while keep good performance running on cloud computing platform. This algorithm smoothly combines MapReduce and overlap-layout-consensus model together, and corrects errors by a classical statistical model. The advantages of the model are in three fold: MapReduce model can handle huge volume of dataset; overlap-layout-consensus model keeps the intactness of input data and; the statistical model guarantees the good performance.

英文关键词: Error correction;Next-generation sequencing;Cloud computing

成为VIP会员查看完整内容
2

相关内容

【干货书】概率,统计与数据,513页pdf
专知会员服务
129+阅读 · 2021年11月27日
【Manning新书】高级算法与数据结构,769页pdf
专知会员服务
169+阅读 · 2021年11月12日
专知会员服务
13+阅读 · 2021年8月28日
元学习-生物医学中连接标记和未标记数据
专知会员服务
29+阅读 · 2021年8月3日
【经典书】数据结构与算法,770页pdf
专知会员服务
135+阅读 · 2021年4月15日
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
30+阅读 · 2021年2月7日
基于Python介绍算法和数据结构的在线互动书,240页pdf
专知会员服务
59+阅读 · 2021年2月3日
【耶鲁】数据结构与编程技术,572页pdf
专知会员服务
45+阅读 · 2020年12月27日
TrOCR:基于Transformer的新一代光学字符识别
微软研究院AI头条
0+阅读 · 2021年10月12日
【耶鲁】数据结构与编程技术,638页pdf
专知
2+阅读 · 2021年4月26日
【经典书】数据结构与算法,770页pdf
专知
2+阅读 · 2021年4月15日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
已删除
将门创投
13+阅读 · 2019年4月17日
各厂推荐算法!
程序猿
17+阅读 · 2018年1月13日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
9+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Age Optimal Sampling Under Unknown Delay Statistics
Arxiv
0+阅读 · 2022年4月20日
Arxiv
1+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
Directional Graph Networks
Arxiv
27+阅读 · 2020年12月10日
小贴士
相关VIP内容
【干货书】概率,统计与数据,513页pdf
专知会员服务
129+阅读 · 2021年11月27日
【Manning新书】高级算法与数据结构,769页pdf
专知会员服务
169+阅读 · 2021年11月12日
专知会员服务
13+阅读 · 2021年8月28日
元学习-生物医学中连接标记和未标记数据
专知会员服务
29+阅读 · 2021年8月3日
【经典书】数据结构与算法,770页pdf
专知会员服务
135+阅读 · 2021年4月15日
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
30+阅读 · 2021年2月7日
基于Python介绍算法和数据结构的在线互动书,240页pdf
专知会员服务
59+阅读 · 2021年2月3日
【耶鲁】数据结构与编程技术,572页pdf
专知会员服务
45+阅读 · 2020年12月27日
相关资讯
TrOCR:基于Transformer的新一代光学字符识别
微软研究院AI头条
0+阅读 · 2021年10月12日
【耶鲁】数据结构与编程技术,638页pdf
专知
2+阅读 · 2021年4月26日
【经典书】数据结构与算法,770页pdf
专知
2+阅读 · 2021年4月15日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
已删除
将门创投
13+阅读 · 2019年4月17日
各厂推荐算法!
程序猿
17+阅读 · 2018年1月13日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
9+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员