Sequence mappability is an important task in genome re-sequencing. In the $(k,m)$-mappability problem, for a given sequence $T$ of length $n$, our goal is to compute a table whose $i$th entry is the number of indices $j \ne i$ such that length-$m$ substrings of $T$ starting at positions $i$ and $j$ have at most $k$ mismatches. Previous works on this problem focused on heuristic approaches to compute a rough approximation of the result or on the case of $k=1$. We present several efficient algorithms for the general case of the problem. Our main result is an algorithm that works in $\mathcal{O}(n \min\{m^k,\log^{k+1} n\})$ time and $\mathcal{O}(n)$ space for $k=\mathcal{O}(1)$. It requires a careful adaptation of the technique of Cole et al. [STOC 2004] to avoid multiple counting of pairs of substrings. We also show $\mathcal{O}(n^2)$-time algorithms to compute all results for a fixed $m$ and all $k=0,\ldots,m$ or a fixed $k$ and all $m=k,\ldots,n-1$. Finally we show that the $(k,m)$-mappability problem cannot be solved in strongly subquadratic time for $k,m = \Theta(\log n)$ unless the Strong Exponential Time Hypothesis fails.
翻译:序列映射是基因组重排序的一个重要任务。 在 $ (k,m) 的可应用性问题中, 对于给定序列, 我们的目标是计算一个表格, 该表格的美元条目是指数数 $j\ne i 美元, 这样, 美元和美元之间的长度- 百万美元的子字符串是美元, 美元开始于位置 $, 美元 美元不匹配。 之前关于该问题的工作侧重于粗略接近结果或美元 $=1 的超值方法。 我们为问题的一般案例展示了几种有效的算法。 我们的主要结果是在 $\ mal= 美元,\ 美元,\ log+1 美元 美元) 时间和 美元 {O} (n) 空间是 $kmathcal{Oral_ldal_ 美元。 它需要仔细调整 Cole etal 和 al $ 美元的技术 。 [STOcal0, 美元 美元] 以避免多次计算固定的 时间= 美元, 美元 美元, 美元= 美元, 美元 美元 美元 全部的固定的计算结果。