确定人类DNA从端粒到端粒的完整序列的探索始于30年前,最终于2021年完成。这一成就是众多专家的巨大努力的结果,他们设计了各种工具,进行了艰苦的手工检查,以实现第一个无间隙基因组序列。然而,这种方法很难作为一种通用的方法来组装不同的基因组,特别是在数据量很大的情况下,组装速度非常关键。在这项工作中,我们探索了一种不同的方法来解决基因组装配任务的中心部分,包括解开一个需要重建基因组序列的大型装配图。本文的主要动机是减少人工设计的启发式方法,并使用深度学习来开发更通用的重建技术。准确地说,我们引入了一种新的学习框架来训练图卷积网络,通过找到一条正确的路径来解析装配图。训练使用从解析的CHM13人体序列生成的数据集进行监督,并在使用真实人体PacBio HiFi读取构建的装配图上进行测试。实验结果表明,在单一染色体生成的模拟图上训练的模型,能够显著地解析所有其他染色体。此外,在相同的图上,该模型优于由最先进的\textit{de novo}汇编程序手工制作的启发式。使用图网络重建的染色体在核苷酸水平上更准确,报告的contigs数量更低,基因组重建分数更高,以及NG50/NGA50评估指标。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“GNG” 就可以获取《GNN如何用于基因学?《图神经网络基因组装》Xavier Bresson 报告》专知下载链接