Genome assembly is a fundamental problem in Bioinformatics, requiring to reconstruct a source genome from an assembly graph built from a set of reads (short strings sequenced from the genome). A notion of genome assembly solution is that of an arc-covering walk of the graph. Since assembly graphs admit many solutions, the goal is to find what is definitely present in all solutions, or what is safe. Most practical assemblers are based on heuristics having at their core unitigs, namely paths whose internal nodes have unit in-degree and out-degree, and which are clearly safe. The long-standing open problem of finding all the safe parts of the solutions was recently solved by a major theoretical result [RECOMB'16]. This safe and complete genome assembly algorithm was followed by other works improving the time bounds, as well as extending the results for different notions of assembly solution. But it remained open whether one can be complete also for models of genome assembly of practical applicability. In this paper we present a universal framework for obtaining safe and complete algorithms which unify the previous results, while also allowing for easy generalizations to assembly problems including many practical aspects. This is based on a novel graph structure, called the hydrostructure of a walk, which highlights the reachability properties of the graph from the perspective of the walk. The hydrostructure allows for simple characterizations of the existing safe walks, and of their new practical versions. Almost all of our characterizations are directly adaptable to optimal verification algorithms, and simple enumeration algorithms. Most of these algorithms are also improved to optimality using an incremental computation procedure and a previous optimal algorithm of a specific model.


翻译:基因组组装配是生物信息学中的一个基本问题, 需要从一组读数( 短链序列顺序由基因组组成) 建立的组装图中重建源基因组。 基因组组组装解决方案的概念是图的弧覆盖行。 由于组装图承认许多解决方案, 目标是找出所有解决方案中肯定存在的东西, 或者安全的东西。 大多数实际的组装者都基于具有核心单位的休眠论, 即内部节点在水平和水平外有单位且显然安全的路径。 长期存在的寻找解决方案中所有安全部分的公开问题最近通过一个主要的理论结果( RECOMB'16) 得到解决。 这种安全和完整的基因组组组装配算法被其他改进了时间约束的方法所追求的目标, 以及扩展了不同组装配解决方案中的结果。 但是, 大部分实际应用基因组组组装配模型的模型能否完整。 在本文中, 我们提出了一个统一先前结果的安全和完整算法的通用框架, 同时也允许简单易变现的算法, 包括许多实际流程的算法的精确的算法 。 这是根据一个简单的算算算法的精确的算法,, 的精确的算算法, 的精确的算法的精确的算法, 的精确的算法, 的精确的算法, 的精确的算法, 的算法, 的算法, 的精确的精确的算法, 的精确的算法, 的精确的算法, 的算法, 的算法, 以以前的算法, 的算法, 的算法, 的精确的算法, 的算法, 的算法, 的算法, 的精确的算法, 的精确的精确的算法, 的算法, 以以前的算法, 的算法, 的算法, 的算法, 的算法, 的算法, 的算法, 的精确的算法, 的算法, 以以前的算法, 的算法, 的精确的算法, 的算法, 的算法的算法, 的精确的精确的精确的精确的精确的算法, 的精确的算法, 的算法, 的精确的精确的精确的

0
下载
关闭预览

相关内容

一份简单《图神经网络》教程,28页ppt
专知会员服务
125+阅读 · 2020年8月2日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
40+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
已删除
将门创投
7+阅读 · 2017年7月11日
Arxiv
0+阅读 · 2021年1月11日
Arxiv
0+阅读 · 2021年1月10日
Arxiv
35+阅读 · 2019年11月7日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
已删除
将门创投
7+阅读 · 2017年7月11日
Top
微信扫码咨询专知VIP会员