The research on indexing repetitive string collections has focused on the same search problems used for regular string collections, though they can make little sense in this scenario. For example, the basic pattern matching query "list all the positions where pattern $P$ appears" can produce huge outputs when $P$ appears in an area shared by many documents. All those occurrences are essentially the same. In this paper we propose a new query that can be more appropriate in these collections, which we call {\em contextual pattern matching}. The basic query of this type gives, in addition to $P$, a context length $\ell$, and asks to report the occurrences of all {\em distinct} strings $XPY$, with $|X|=|Y|=\ell$. While this query is easily solved in optimal time and linear space, we focus on using space related to the repetitiveness of the text collection and present the first solution of this kind. Letting $\ovr$ be the maximum of the number of runs in the BWT of the text $T[1..n]$ and of its reverse, our structure uses $O(\ovr\log(n/\ovr))$ space and finds the $c$ contextual occurrences $XPY$ of $(P,\ell)$ in time $O(|P| + c \log n)$. We give other space/time tradeoffs as well, for compressed and uncompressed indexes.


翻译:重复字符串收藏的索引化研究侧重于用于定期字符串收藏的相同搜索问题,尽管在这种情景中它们没有什么意义。例如,基本模式匹配查询“列出所有出现模式$$的方位”的基本模式匹配查询“列出所有出现模式$$的方位”当美元出现在许多文件共享的区域内时可以产生巨大的产出。 所有这些事件基本上都是相同的。在本文件中,我们提议了新的查询,这些收藏可以更适合,我们称之为“背景模式匹配”。这种基本查询除了提供$P$外,还给出了上下文长度$@ell$,并要求用$X+++美元报告所有不同字符端字符$XPY$的发生情况。虽然这个查询很容易在最佳时间和线性空间中解决,但我们侧重于使用与文本收藏重复有关的空间,并提出这类类型的第一个解决方案。让$@ovr$成为文本中BWT$[1.n]和其反面结构将$O$(c\\$P\$_美元/美元)用于背景空间交易中的美元/美元。

0
下载
关闭预览

相关内容

Beginner's All-purpose Symbolic Instruction Code(初学者通用的符号指令代码),刚开始被作者写做 BASIC,后来被微软广泛地叫做 Basic 。
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Arxiv
0+阅读 · 2020年11月22日
Arxiv
6+阅读 · 2018年7月12日
Arxiv
3+阅读 · 2018年3月21日
Arxiv
5+阅读 · 2017年7月23日
Arxiv
3+阅读 · 2015年5月16日
VIP会员
相关资讯
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
相关论文
Arxiv
0+阅读 · 2020年11月22日
Arxiv
6+阅读 · 2018年7月12日
Arxiv
3+阅读 · 2018年3月21日
Arxiv
5+阅读 · 2017年7月23日
Arxiv
3+阅读 · 2015年5月16日
Top
微信扫码咨询专知VIP会员