高通量测序(HTS)技术的出现彻底改变了基因组分析,使得大规模基因组的快速且经济高效的测序成为可能。尽管取得了这些进展,基因组数据的复杂性和数据量的不断增加仍然带来了与准确性、可扩展性和计算效率相关的重大挑战。这些挑战主要源于测序数据中各种形式的不必要和未处理的变异,统称为噪声。解决这些挑战需要深入理解基因组数据中不同类型的噪声,并开发技术以减轻噪声对基因组分析的影响。 在本论文中,我们旨在理解影响基因组分析流程的噪声类型,并通过开发新的计算技术来容忍或减少噪声,从而实现对不同类型测序数据(例如纳米孔测序的原始电信号)更快、更准确和可扩展的分析。 首先,我们介绍了BLEND,一种噪声容忍的哈希机制,能够通过单次哈希值查找快速识别完全匹配和高度相似但存在任意差异的序列。其次,为了实现可扩展且准确的噪声原始纳米孔信号分析,我们提出了RawHash,这是一种新颖的机制,通过提出首个基于哈希的原始纳米孔信号相似性搜索技术,有效减少原始纳米孔信号中的噪声,并实现准确的实时分析。第三,我们通过RawHash2扩展了RawHash的功能,这一改进机制:1)更好地理解原始纳米孔信号中的噪声以更有效地减少噪声;2)提高映射决策的鲁棒性。第四,我们通过引入Rawsamble探索了原始纳米孔信号分析的更广泛影响和新应用。Rawsamble是首个使用基于哈希搜索的原始信号全对全重叠机制,能够直接从原始信号构建从头组装,而无需进行碱基识别,这为原始纳米孔信号分析开辟了新的方向和应用。

本论文全面理解了不同类型基因组数据中的噪声如何影响基因组分析流程,并提供了减轻噪声影响的新颖解决方案。我们的研究结果表明,通过使用新的计算技术有效容忍和减少噪声,我们可以:1)显著提高基因组分析的性能、准确性和可扩展性;2)通过实现新的应用和方向扩展原始信号分析的范围。我们希望并相信,本论文中提出的方法和见解将有助于发明和开发更强大、更高效、功能更全面的基因组分析工具,特别是在原始信号分析领域。

成为VIP会员查看完整内容
10

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】利用图结构加速稀疏计算
专知会员服务
16+阅读 · 3月6日
【HKUST博士论文】单视图图像的高质量3D生成
专知会员服务
15+阅读 · 1月21日
【ETHZ博士论文】与多机器人系统的直观与高效互动
专知会员服务
18+阅读 · 2024年11月29日
最新《图嵌入组合优化》综述论文,40页pdf
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
446+阅读 · 2023年3月31日
Arxiv
162+阅读 · 2023年3月24日
Arxiv
23+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员