In the $(k,m)$-mappability problem, for a given sequence $T$ of length $n$, the goal is to compute a table whose $i$th entry is the number of indices $j \ne i$ such that the length-$m$ substrings of $T$ starting at positions $i$ and $j$ have at most $k$ mismatches. Previous works on this problem focused on heuristics computing a rough approximation of the result or on the case of $k=1$. We present several efficient algorithms for the general case of the problem. Our main result is an algorithm that, for $k=\mathcal{O}(1)$, works in $\mathcal{O}(n)$ space and, with high probability, in $\mathcal{O}(n \cdot \min\{m^k,\log^k n\})$ time. Our algorithm requires a careful adaptation of the $k$-errata trees of Cole et al. [STOC 2004] to avoid multiple counting of pairs of substrings. Our technique can also be applied to solve the all-pairs Hamming distance problem introduced by Crochemore et al. [WABI 2017]. We further develop $\mathcal{O}(n^2)$-time algorithms to compute all $(k,m)$-mappability tables for a fixed $m$ and all $k\in \{0,\ldots,m\}$ or a fixed $k$ and all $m\in\{k,\ldots,n\}$. Finally, we show that, for $k,m = \Theta(\log n)$, the $(k,m)$-mappability problem cannot be solved in strongly subquadratic time unless the Strong Exponential Time Hypothesis fails. This is an improved and extended version of a paper that was presented at SPIRE 2018.


翻译:$( k, m) 和 $( $) 的不匹配问题中, 对于一个给定序列 $( T) 长度 $( 美元), 目标是计算一个表格, 该表格的美元条目是指数数 $j\ ne 美元, 这样, 美元( 美元) 的长度- 百万美元子字符串( 美元) 开始于位置 $( 美元) 和 $( 美元) 错配问题。 之前关于该问题的工作侧重于粗略计算结果近似值或 美元( 美元) 。 我们为问题的一般案例展示了几种有效的算法。 我们的主要结果是一个算法, 对于 美元( 美元) 美元( 美元) 美元( 美元) 美元( 美元), 美元( 美元) 美元( 美元) 美元( 美元( 美元) 美元( 美元) 。 我们的主要结果是, 美元( 美元( 美元) 美元( 美元) ( ) ( 美元) ( 美元( 美元) ( 美元) ( 美元) ( 美元) ( 美元) ( 美元) ( 美元) ( 美元) ( 美元( 美元) ( 美元) ( 美元) ( 美元) ( 美元) ( ) ( ) ( ) ( 美元) ( ) ( ) ( ) ( ) ( ) ( ) ( 美元) ( ) ( ) ( ) ( 美元) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) (美元) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) (美元) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) (

0
下载
关闭预览

相关内容

专知会员服务
51+阅读 · 2021年6月14日
专知会员服务
75+阅读 · 2021年3月16日
专知会员服务
59+阅读 · 2020年3月19日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
《自然》(20190829出版)一周论文导读
科学网
6+阅读 · 2019年8月30日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
《自然》(20190221出版)一周论文导读
科学网
6+阅读 · 2019年2月23日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年8月17日
Arxiv
0+阅读 · 2021年8月17日
Arxiv
0+阅读 · 2021年8月16日
Arxiv
3+阅读 · 2018年10月18日
Arxiv
4+阅读 · 2017年7月25日
VIP会员
相关VIP内容
专知会员服务
51+阅读 · 2021年6月14日
专知会员服务
75+阅读 · 2021年3月16日
专知会员服务
59+阅读 · 2020年3月19日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
《自然》(20190829出版)一周论文导读
科学网
6+阅读 · 2019年8月30日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
《自然》(20190221出版)一周论文导读
科学网
6+阅读 · 2019年2月23日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
0+阅读 · 2021年8月17日
Arxiv
0+阅读 · 2021年8月17日
Arxiv
0+阅读 · 2021年8月16日
Arxiv
3+阅读 · 2018年10月18日
Arxiv
4+阅读 · 2017年7月25日
Top
微信扫码咨询专知VIP会员