Most data is automatically collected and only ever "seen" by algorithms. Yet, data compressors preserve perceptual fidelity rather than just the information needed by algorithms performing downstream tasks. In this paper, we characterize the bit-rate required to ensure high performance on all predictive tasks that are invariant under a set of transformations, such as data augmentations. Based on our theory, we design unsupervised objectives for training neural compressors. Using these objectives, we train a generic image compressor that achieves substantial rate savings (more than $1000\times$ on ImageNet) compared to JPEG on 8 datasets, without decreasing downstream classification performance.
翻译:大部分数据都是自动收集的, 并且只有算法才会“ 看见 ” 。 然而, 数据压缩机保存着一种概念上的忠诚性, 而不仅仅是执行下游任务的算法所需要的信息。 在本文中, 我们用比特率来描述在一系列变换( 如数据增强)下确保高性能的所有预测性任务所需的比特率。 根据我们的理论, 我们设计了培训神经压缩机的不受监督的目标。 使用这些目标, 我们训练了一个通用图像压缩机, 与 JPEG 相比, 在8个数据集上实现了大幅度的节率( 在图像网络上超过1000美元), 而不降低下游分类性能 。