Wheeler DFAs (WDFAs) are a sub-class of finite-state automata which is playing an important role in the emerging field of compressed data structures: as opposed to general automata, WDFAs can be stored in just $\log\sigma + O(1)$ bits per edge, $\sigma$ being the alphabet's size, and support optimal-time pattern matching queries on the substring closure of the language they recognize. An important step to achieve further compression is minimization. When the input $\mathcal A$ is a general deterministic finite-state automaton (DFA), the state-of-the-art is represented by the classic Hopcroft's algorithm, which runs in $O(|\mathcal A|\log |\mathcal A|)$ time. This algorithm stands at the core of the only existing minimization algorithm for Wheeler DFAs, which inherits its complexity. In this work, we show that the minimum WDFA equivalent to a given input WDFA can be computed in linear $O(|\mathcal A|)$ time. When run on de Bruijn WDFAs built from real DNA datasets, an implementation of our algorithm reduces the number of nodes from 14% to 51% at a speed of more than 1 million nodes per second.


翻译:Wheeler DFAs (WDFAs) 是一个在压缩数据结构的新兴领域发挥重要作用的有限状态自动自动数据小分类: 与一般自动数据相比, WDFA 可以用纯$\log\sigma + O(1)美元比特/ 边缘存储, $\sigma$是字母的大小, 支持对所识别语言的子字符串关闭进行最佳时间匹配查询。 进一步压缩的一个重要步骤是最小化。 当输入 $\ mathcal A$ 是一般确定性固定状态自动数据( DFA) 时, 状态由经典的Hopcroft 算法代表, 以$( mascal Açálog + O(1)美元 美元/ mathcal A ⁇ ) 时间存储。 此算法是目前唯一最起码最短时间匹配其所识别语言的最小化算法的核心, 并在此工作中, 我们显示, 相当于给WDFA的最小值相当于WDFA的最小值可以用直线 $O (Zmacal A\) $ 51 a de de de max more time

0
下载
关闭预览

相关内容

专知会员服务
15+阅读 · 2021年5月21日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
已删除
将门创投
5+阅读 · 2019年6月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2022年1月10日
Arxiv
0+阅读 · 2022年1月10日
Arxiv
0+阅读 · 2022年1月7日
Arxiv
7+阅读 · 2020年6月29日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2019年6月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员