Sequence mappability is an important task in genome re-sequencing. In the $(k,m)$-mappability problem, for a given sequence $T$ of length $n$, our goal is to compute a table whose $i$th entry is the number of indices $j \ne i$ such that length-$m$ substrings of $T$ starting at positions $i$ and $j$ have at most $k$ mismatches. Previous works on this problem focused on heuristic approaches to compute a rough approximation of the result or on the case of $k=1$. We present several efficient algorithms for the general case of the problem. Our main result is an algorithm that works in $\mathcal{O}(n \min\{m^k,\log^{k+1} n\})$ time and $\mathcal{O}(n)$ space for $k=\mathcal{O}(1)$. It requires a careful adaptation of the technique of Cole et al. [STOC 2004] to avoid multiple counting of pairs of substrings. We also show $\mathcal{O}(n^2)$-time algorithms to compute all results for a fixed $m$ and all $k=0,\ldots,m$ or a fixed $k$ and all $m=k,\ldots,n-1$. Finally we show that the $(k,m)$-mappability problem cannot be solved in strongly subquadratic time for $k,m = \Theta(\log n)$ unless the Strong Exponential Time Hypothesis fails.


翻译:序列映射是基因组重排序的一个重要任务。 在 $ (k,m) 的可应用性问题中, 对于给定序列, 我们的目标是计算一个表格, 该表格的美元条目是指数数 $j\ne i 美元, 这样, 美元和美元之间的长度- 百万美元的子字符串是美元, 美元开始于位置 $, 美元 美元不匹配。 之前关于该问题的工作侧重于粗略接近结果或美元 $=1 的超值方法。 我们为问题的一般案例展示了几种有效的算法。 我们的主要结果是在 $\ mal= 美元,\ 美元,\ log+1 美元 美元) 时间和 美元 {O} (n) 空间是 $kmathcal{Oral_ldal_ 美元。 它需要仔细调整 Cole etal 和 al $ 美元的技术 。 [STOcal0, 美元 美元] 以避免多次计算固定的 时间= 美元, 美元 美元, 美元= 美元, 美元 美元 美元 全部的固定的计算结果。

0
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
【新书】Python编程基础,669页pdf
专知会员服务
187+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
38+阅读 · 2019年10月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:基于LSTM的序列推荐实现(PyTorch)
LibRec智能推荐
50+阅读 · 2018年8月27日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年8月12日
Arxiv
4+阅读 · 2021年7月1日
Sparse Sequence-to-Sequence Models
Arxiv
5+阅读 · 2019年5月14日
Arxiv
4+阅读 · 2017年7月25日
VIP会员
相关VIP内容
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:基于LSTM的序列推荐实现(PyTorch)
LibRec智能推荐
50+阅读 · 2018年8月27日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员