The minimizers sampling mechanism is a popular mechanism for string sampling introduced independently by Schleimer et al. [SIGMOD 2003] and by Roberts et al. [Bioinf. 2004]. Given two positive integers $w$ and $k$, it selects the lexicographically smallest length-$k$ substring in every fragment of $w$ consecutive length-$k$ substrings (in every sliding window of length $w + k - 1$). Minimizers samples are approximately uniform, locally consistent, and computable in linear time. Two main disadvantages of minimizers sampling mechanisms are: first, they do not have good guarantees on the expected size of their samples for every combination of $w$ and $k$; and, second, indexes that are constructed over their samples do not have good worst-case guarantees for on-line pattern searches. We introduce bidirectional string anchors (bd-anchors), a new string sampling mechanism. Given a positive integer $\ell$, our mechanism selects the lexicographically smallest rotation in every length-$\ell$ fragment (in every sliding window of length $\ell$). We show that bd-anchors samples are also approximately uniform, locally consistent, and computable in linear time. In addition, our experiments using several datasets demonstrate that the bd-anchors sample sizes decrease proportionally to $\ell$; and that these sizes are competitive to or smaller than the minimizers sample sizes using the analogous sampling parameters. We provide theoretical justification for these results by analyzing the expected size of bd-anchors samples. As a negative result, we show that computing a total order $\leq$ on the input alphabet, which minimizes the bd-anchors sample size, is NP-hard. We also show that by using any bd-anchors sample, we can construct, in near-linear time, an index which requires linear (extra) space in the size of the sample and answers on-line pattern searches in near-optimal time.


翻译:最小化采样机制是Schleimer等人[SIGMOD 2003年]和Roberts等人[Bioinf. 2004年]独立推出的弦采样流行机制。考虑到两个正整数,它选择了每块连续长度-k美元每片中最小的长度-k美元子字符串(每个滑动窗口的长度为$+k-1美元)。最小化采样器样本大致是统一的、本地的一致的、在线性时间内可比较的。最小化采样机制的两个主要缺点是:第一,它们对于每种美元和美元组合的样本的预期大小没有良好的保证;第二,在样本中构造的指数并不具有最坏的保证。我们引入双向导弦锚(b-nchors),任何新的弦采样机制。鉴于正正整数的直径直流值(美元),我们的机制选择了每段长度-美元比例最小的基底值采样机制。在每块中进行最小的旋转,它们没有良好的保证它们的规模;在每块的直径的计算中显示我们的直径小的数值,这些直径的基的样品中显示我们使用的直径的数值。

0
下载
关闭预览

相关内容

专知会员服务
55+阅读 · 2021年10月12日
专知会员服务
22+阅读 · 2021年9月20日
专知会员服务
24+阅读 · 2021年8月22日
专知会员服务
117+阅读 · 2021年4月29日
基于深度学习的行人检测方法综述
专知会员服务
68+阅读 · 2021年4月14日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
52+阅读 · 2020年8月21日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答
AI科技评论
18+阅读 · 2020年6月29日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
已删除
将门创投
4+阅读 · 2019年4月1日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Directional Graph Networks
Arxiv
27+阅读 · 2020年12月10日
Arxiv
4+阅读 · 2020年3月19日
VIP会员
相关VIP内容
专知会员服务
55+阅读 · 2021年10月12日
专知会员服务
22+阅读 · 2021年9月20日
专知会员服务
24+阅读 · 2021年8月22日
专知会员服务
117+阅读 · 2021年4月29日
基于深度学习的行人检测方法综述
专知会员服务
68+阅读 · 2021年4月14日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
52+阅读 · 2020年8月21日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
相关资讯
ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答
AI科技评论
18+阅读 · 2020年6月29日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
已删除
将门创投
4+阅读 · 2019年4月1日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Top
微信扫码咨询专知VIP会员