在过去的几年里,深度学习方法在从计算机视觉到语音识别的各个领域的广泛问题上取得了前所未有的成绩。目前的研究主要集中在开发网格结构数据的深度学习方法,而许多重要的应用都需要处理图结构数据。这些几何数据在计算机图形学和三维视觉、传感器网络、药物设计、生物医学、推荐系统、NLP和带有知识图的计算机视觉、web应用等领域越来越重要。本次演讲的目的是介绍图上的卷积神经网络,以及这些新的学习技术的应用。
人类从端粒到端粒的DNA全序列测定始于30年前,最终于2021年完成。这一成就是众多专家的巨大努力的结果,他们设计了各种工具,并进行了艰苦的手工检查,以实现第一个无间隙基因组序列。然而,这种方法很难作为一种组装不同基因组的通用方法,尤其是在数据量大、组装速度快的情况下。在这项工作中,我们探索了一种不同的方法来解决基因组组装任务的中心部分,包括解开一个大的组装图,从中需要重建基因组序列。我们的主要动机是减少人类工程启发式,并使用深度学习开发更通用的重建技术。准确地说,我们引入了一种新的学习框架来训练图卷积网络通过找到正确的路径来解析组装图。训练使用从解析CHM13人类序列生成的数据集进行监督,并在使用真实人类PacBio HiFi读取数据构建的组装图上进行测试。实验结果表明,在单个染色体生成的模拟图形上训练的模型能够显著地解析所有其他染色体。此外,该模型在相同的图表上优于从最先进的\textit{de novo}汇编器手工制作的启发式。利用图网络重建的染色体在核苷酸水平上更准确,报告的contig数量更少,基因组重建分数更高,NG50/NGA50评估指标更高。