In ongoing work to define a principled method for syntenic block discovery and structuring, work based on homology-derived constraints and a generalization of common intervals, we faced a fundamental computational problem: how to determine quickly, among a set of indeterminate strings (strings whose elements consist of subsets of characters), contiguous intervals that would share a vast majority of their elements, but allow for sharing subsets of characters subsumed by others, and also for certain elements to be missing from certain genomes. An algorithm for this problem in the special case of determinate strings (where each element is a single character of the alphabet, i.e., "normal" strings) was described by Doerr et al., but its running time would explode if generalized to indeterminate strings. In this paper, we describe an algorithm for computing these special common intervals in time close to that of the simpler algorithm of Doerr et al. and show that can compute these intervals in just a couple of hours for large collections (tens to hundreds) of bacterial genomes.


翻译:在定义合成块发现和构造的基础方法中,研究人员通过基于同源导出的约束和公共区间的一般化方法,面临着一个基本的计算问题:如何快速确定一组不确定字符串(元素包含字符子集的字符串)之间的连续区间,这些连续区间将共享绝大多数元素,但允许共享由其他元素包含的字符子集,并且也允许某些元素丢失在特定的基因组中。Doerr等人描述了一个该特殊情况下(其中每个元素是字母表中的一个字符,即“正常”字符串)的算法,但是如果推广到不确定字符串,其运行时间会急剧增加。在本文中,我们描述了一个算法,在时间接近Doerr等人所提出的简单算法的情况下计算这些特殊的公共区间,并展示对于大型集合(上百个)的细菌基因组,我们可以在几个小时内计算这些区间。

0
下载
关闭预览

相关内容

【2023新书】随机模型基础,815页pdf
专知会员服务
100+阅读 · 2023年5月10日
【干货书】工程和科学中的概率和统计,
专知会员服务
57+阅读 · 2022年12月24日
Into the Metaverse,93页ppt介绍元宇宙概念、应用、趋势
专知会员服务
47+阅读 · 2022年2月19日
【硬核书】矩阵代数基础,248页pdf
专知会员服务
84+阅读 · 2021年12月9日
专知会员服务
76+阅读 · 2021年3月16日
专知会员服务
42+阅读 · 2020年12月18日
专知会员服务
52+阅读 · 2020年9月7日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
2022年“菲尔兹奖”,颁给了这四位年轻人
学术头条
0+阅读 · 2022年7月6日
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月23日
Arxiv
0+阅读 · 2023年5月20日
VIP会员
相关VIP内容
【2023新书】随机模型基础,815页pdf
专知会员服务
100+阅读 · 2023年5月10日
【干货书】工程和科学中的概率和统计,
专知会员服务
57+阅读 · 2022年12月24日
Into the Metaverse,93页ppt介绍元宇宙概念、应用、趋势
专知会员服务
47+阅读 · 2022年2月19日
【硬核书】矩阵代数基础,248页pdf
专知会员服务
84+阅读 · 2021年12月9日
专知会员服务
76+阅读 · 2021年3月16日
专知会员服务
42+阅读 · 2020年12月18日
专知会员服务
52+阅读 · 2020年9月7日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
2022年“菲尔兹奖”,颁给了这四位年轻人
学术头条
0+阅读 · 2022年7月6日
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员