Data compression is widely used in contemporary column-oriented DBMSes to lower space usage and to speed up query processing. Pioneering systems have introduced compression to tackle the disk bandwidth bottleneck by trading CPU processing power for it. The main issue of this is a trade-off between the compression ratio and the decompression CPU cost. Existing results state that light-weight compression with small decompression costs outperforms heavy-weight compression schemes in column-stores. However, since the time these results were obtained, CPU, RAM, and disk performance have advanced considerably. Moreover, novel compression algorithms have emerged. In this paper, we revisit the problem of compression in disk-based column-stores. More precisely, we study the I/O-RAM compression scheme which implies that there are two types of pages of different size: disk pages (compressed) and in-memory pages (uncompressed). In this scheme, the buffer manager is responsible for decompressing pages as soon as they arrive from disk. This scheme is rather popular as it is easy to implement: several modern column and row-stores use it. We pose and address the following research questions: 1) Are heavy-weight compression schemes still inappropriate for disk-based column-stores?, 2) Are new light-weight compression algorithms better than the old ones?, 3) Is there a need for SIMD-employing decompression algorithms in case of a disk-based system? We study these questions experimentally using a columnar query engine and Star Schema Benchmark.
翻译:在当代专列导向 DBMS 中广泛使用数据压缩,以降低空间使用,并加快查询处理。先锋系统已经引入压缩,通过交易CPU 处理能力来解决磁盘带带宽瓶颈问题。 主要问题在于压缩比率与压缩 CPU 成本之间的权衡。 现有结果显示, 轻量压缩, 小型压缩成本超过列室中重压压缩计划。 然而, 自这些结果获得后, CPU、 RAM 和磁盘性能已经大大提高。 此外, 新的压缩算法已经出现。 在本文件中, 我们重新研究磁盘制柱存储问题。 更准确地说, 我们研究I/ O-RAM 压缩方案, 意味着有两种不同大小的页面: 磁盘页( 压缩) 和 模缩缩缩缩缩缩缩图( 压) 。 在这个方案中, 缓冲管理器负责在磁盘中到达后立即进行减压页面。 这个方案比较受欢迎, 因为它很容易执行: 几个基于磁盘的柱和行级缩缩缩缩缩图 。 我们提出较不适当的 标准的, 标准 的 的 的 的 的 的 的 的 标准 标准 的 标准 研究 的 的 的 的 的 的 的 的 的 的 的 的 的 的 正在 的 的 的 的 的 的 的 正在 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的