The sensitivity of a string compression algorithm $C$ asks how much the output size $C(T)$ for an input string $T$ can increase when a single character edit operation is performed on $T$. This notion enables one to measure the robustness of compression algorithms in terms of errors and/or dynamic changes occurring in the input string. In this paper, we analyze the worst-case multiplicative sensitivity of string compression algorithms, defined by $\max_{T \in \Sigma^n}\{C(T')/C(T) : ed(T, T') = 1\}$, where $ed(T, T')$ denotes the edit distance between $T$ and $T'$. For the most common versions of the Lempel-Ziv 77 compressors, we prove that the worst-case multiplicative sensitivity is only a small constant (2 or 3, depending on the version of the Lempel-Ziv 77 and the edit operation type). We strengthen our upper bound results by presenting matching lower bounds on the worst-case sensitivity for all these major versions of the Lempel-Ziv 77 factorizations. This contrasts with the previously known related results such that the size $z_{\rm 78}$ of the Lempel-Ziv 78 factorization can increase by a factor of $\Omega(n^{3/4})$ [Lagarde and Perifel, 2018], and the number $r$ of runs in the Burrows-Wheeler transform can increase by a factor of $\Omega(\log n)$ [Giuliani et al., 2021] when a character is prepended to an input string of length $n$. We also study the worst-case sensitivity of several grammar compression algorithms including Bisection, AVL-grammar, GCIS, and CDAWG. Further, we extend the notion of the worst-case sensitivity to string repetitiveness measures such as the smallest string attractor size $\gamma$ and the substring complexity $\delta$, and present matching upper and lower bounds of the worst-case multiplicative sensitivity for $\gamma$ and $\delta$.


翻译:字符串压缩算法的灵敏度 $C $C 询问输入字符串的输出大小 $C(T) $T $T $能够增加多少。 这个概念使一个人能够用输入字符串中的错误和/或动态变化来测量压缩算法的稳健性。 在本文中, 我们分析字符串压缩算法的最差的多倍性敏感性, 由 $max%T\ in\Sigmax%nQ(T') /C(T) : 编辑(T, T') 以 $美元 美元 =1 $。 美元 美元 表示 $T, T' 美元表示 美元和 $T' 的编辑距离。 对于最常见的 Lempel- Ziv 77 压缩算法的多重敏感度, 我们分析的是最差的常数个常数( 2 或 3 ), 最差数 和最坏的操作类型, 我们通过显示最差的内程 $ 美元 的内程内程内程内程内程内程内变的内变的内变的内变的内变 。

0
下载
关闭预览

相关内容

专知会员服务
75+阅读 · 2021年3月16日
专知会员服务
123+阅读 · 2020年9月8日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
专知会员服务
59+阅读 · 2020年3月19日
专知会员服务
109+阅读 · 2020年3月12日
专知会员服务
158+阅读 · 2020年1月16日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
86+阅读 · 2019年10月21日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
5+阅读 · 2017年11月20日
Arxiv
0+阅读 · 2021年9月20日
Arxiv
9+阅读 · 2021年6月21日
Arxiv
3+阅读 · 2018年10月18日
VIP会员
相关VIP内容
专知会员服务
75+阅读 · 2021年3月16日
专知会员服务
123+阅读 · 2020年9月8日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
专知会员服务
59+阅读 · 2020年3月19日
专知会员服务
109+阅读 · 2020年3月12日
专知会员服务
158+阅读 · 2020年1月16日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
86+阅读 · 2019年10月21日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
5+阅读 · 2017年11月20日
Top
微信扫码咨询专知VIP会员