In the present work, we tackle the regular language indexing problem by first studying the hierarchy of $p$-sortable languages: regular languages accepted by automata of width $p$. We show that the hierarchy is strict and does not collapse, and provide (exponential in $p$) upper and lower bounds relating the minimum widths of equivalent NFAs and DFAs. Our bounds indicate the importance of being able to index NFAs, as they enable indexing regular languages with much faster and smaller indexes. Our second contribution solves precisely this problem, optimally: we devise a polynomial-time algorithm that indexes any NFA with the optimal value $p$ for its width, without explicitly computing $p$ (NP-hard to find). In particular, this implies that we can index in polynomial time the well-studied case $p=1$ (Wheeler NFAs). More in general, in polynomial time we can build an index breaking the worst-case conditional lower bound of $\Omega(|P| m)$, whenever the input NFA's width is $p \in o(\sqrt{m})$.
翻译:在目前的工作中,我们通过首先研究以美元计算的常规语言指数化问题,先研究以美元计算的常规语言等级:由宽度$p$的自动马塔所接受的常规语言。我们表明,等级严格,不会崩溃,并提供(以美元计算的)与等量的NFA和DFA最低宽度有关的(以美元计算的)上下界限。我们的界限表明,能够以更快和较小的指数编制普通语言索引的重要性。我们的第二次贡献最准确地解决了这个问题:我们设计了一个将任何NFA以最优价值美元计算其宽度,而没有明确计算$p$(NP-硬值以寻找)。特别是,这意味着,我们可以在多数值时间以美元=1美元(Wheeler NFas)来指数化。一般地说,只要输入NFA=Q=美元(美元)的宽度,我们就可以建立一个以美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/</s>