压缩学习(CL)是一个新兴的框架,集成了通过压缩感知(CS)的信号获取和机器学习,直接在少量测量上进行推理任务。它在节省内存和提高计算效率方面具有很大的优势,是一种很有前景的图像域方法。然而,以往对CL的尝试不仅局限于缺乏灵活性的固定CS比,而且还局限于MNIST/ cifar类数据集,不能扩展到复杂的现实世界高分辨率(HR)数据或视觉任务。本文提出了一种基于transformer的大规模图像压缩学习框架,称为TransCL。具体而言,TransCL 首先利用了可学习的基于块的压缩感知策略,并提出了一种灵活的线性投影策略,使得可以在任意CS比的情况下,以高效的块逐块的方式对大规模图像进行CL。然后,将所有区块的CS测量结果作为一个序列,部署一个纯粹基于transformer的骨干,用各种面向任务的头部执行视觉任务。我们充分分析表明,TransCL具有很强的抗干扰能力和对任意CS比的鲁棒适应性。对复杂HR数据的大量实验表明,所提出的TransCL可以在图像分类和语义分割任务中实现最先进的性能。尤其是CS比为10%的TransCL,可以获得与直接对原始数据进行操作时几乎相同的性能,即使CS比极低,只有1%,仍然可以获得令人满意的性能。我们提出的TransCL的源代码可以在https://github.com/MC-E/TransCL/上找到。
https://www.zhuanzhi.ai/paper/46644550ded0880743f316b9306bf8a8