The FM-index is an important data structure in combinatorial pattern matching and bioinformatics, that has been generalized from indexing single strings to indexing collections of strings, labelled trees, de Bruijn graphs and Wheeler graphs. To generalize the FM-index to collections of strings and to labelled trees, researchers generalized the Burrows-Wheeler Transform (BWT) to the Extended BWT (EBWT) and the eXtended BWT (XBWT), respectively. Although one of the EBWT's main applications is compressing and indexing DNA readsets, we show in this paper that when the reads have been assembled or when they align well to a reference genome, then it is possible to use that assembled or reference genome to produce a smaller compressed index. To do this, we graft the reads onto the genome and store the resulting labelled tree with the XBWT. For an {\it E.\ coli} readset, for example, our experiments show that eliminating separators characters from the EBWT reduces the number of runs by 16%, from 105.3 million to 88.3 million, and using the XBWT reduces it by a further 8.3%, to 80.9 million.


翻译:FM-index是组合式模式匹配和生物信息学中的一个重要数据结构,从单字符索引化到字符串、有标签的树木、de Bruijn 图形和Wheeler 图形的索引收集,这在分类模式匹配和生物信息学中是一个普遍化的重要数据结构。为了将调频指数化为字符串和有标签的树木的收集,研究人员将Burrows-Wheeler变型(BWT)分别推广到扩展的BWT(EBWT)和extied BWT(XBWT),研究人员将Burrows-Wheeler变型(BWT)和exitedd BWT(XBWT)分别推广到扩展版。尽管欧洲BWT的主要应用之一是压缩和索引化DNA读取,但我们在本文中显示,当内容组装组装成或它们与参考基因组一致时,就可以使用该组或参照基因组生成一个较小的压缩指数。要做到这一点,我们把读到基因组的读起来的读取结果并储存成 。例如我们的实验显示,消除欧洲BWTTT的分隔字符字符字符字符字符字符的减少16%,从10.53万至88.3万至8.3百万再减少。

0
下载
关闭预览

相关内容

Effective.Modern.C++ 中英文版,334页pdf
专知会员服务
67+阅读 · 2020年11月4日
【2020新书】Web应用安全,331页pdf
专知会员服务
23+阅读 · 2020年10月24日
专知会员服务
39+阅读 · 2020年9月6日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
通过Docker安装谷歌足球游戏环境
CreateAMind
11+阅读 · 2019年7月7日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
人工智能 | NIPS 2019等国际会议信息8条
Call4Papers
7+阅读 · 2019年3月21日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年4月2日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
Effective.Modern.C++ 中英文版,334页pdf
专知会员服务
67+阅读 · 2020年11月4日
【2020新书】Web应用安全,331页pdf
专知会员服务
23+阅读 · 2020年10月24日
专知会员服务
39+阅读 · 2020年9月6日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
通过Docker安装谷歌足球游戏环境
CreateAMind
11+阅读 · 2019年7月7日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
人工智能 | NIPS 2019等国际会议信息8条
Call4Papers
7+阅读 · 2019年3月21日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员