【速览】ACM MM 2021丨跨模态压缩：一种基于跨模态的图像-文本语义压缩框架

2021 年 10 月 12 日 中国图象图形学学会CSIG

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

跨模态压缩：一种基于跨模态的图像-文本语义压缩框架

黎吉国

^{1,3}

, 贾川民

^{2}

, 张新峰

^{3,4}

, 马思伟

^{2,4}

, 高文

^{1,2,3,4}

^{1}

中国科学院计算技术研究所，

^{2}

北京大学，

^{3}

中国科学院大学，

^{4}

鹏城实验室

ACM MM 2021

撰稿人：黎吉国，贾川民

通讯作者：贾川民

推荐理事：林宙辰

原文标题：Cross Modal Compression: Towards Human-comprehensible Semantic Compression

原文链接： https://gitee.com/jiguo_li/cross_modal_compression_mainpage/raw/master/paper.pdf

原文代码链接: https://github.com/smallflyingpig/cross_modal_compression

数据集链接：见代码仓库Readme描述

◆ ◆ ◆ ◆

摘要

图像/视频压缩的研究目标是在保证信号保真约束尽可能降低传输/存储代价。随着近来机器分析和语义监督等需求的增长，语义保真正变为图像/视频压缩中一种全新的需求。基于跨模态翻译与生成模型的进展，本文提出了一种跨模态压缩的概念和数据表示方法。跨模态压缩是一种面向多种媒体数据的语义压缩框架，它将图像，视频等高语义冗余的数据借助跨模态翻译模型转为文本，语义图，素描图等低语义冗余的数据。这种低语义冗余的数据具有码率低和人类可理解等特点，实现了极高的压缩比，同时还可以在不解压的情况下实现语义监督。在跨模态压缩概念的基础上，本文还提出了一个跨模态图像-文本压缩框架，基于该框架的定性和定量实验验证了所提方法的有效性，相比JPEG和JPEG 2000具有更优越的压缩效率和语义感知性能。

研究背景

近年来图像、视频数据的信息量呈指数级提升，尤其是用于机器分析的数据量相较以往显著增加。因此，在图像/视频等数据的压缩框架中，语义保真相比传统的信号保真变得越来越重要（不同保真的对比如图1所示）。因为信号保真是面向信号层面的，也与机器分析的要求有明显的差异，所以广泛使用信号保真的传统的压缩方法与机器分析的要求并不一致。除此之外，场景视频的语义信息，例如行人相关的身份，数量，或者车辆的流量等，而不是原始的场景图像，也变得越来越重要，这一类需求称之为语义监督。然而，传统的基于块划分的图像/视频压缩框架主要在特定码率约束下优化数据的信号保真，已经不能满足日益增加的机器分析和语义监督的需求。近期的特征压缩的框架将深度神经网络的中间层或者最终层的特征通过量化，压缩和熵编码来将重点放在语义特征上。但是特征压缩有如下不足之处：（1）它一般面向具体的任务，换一个任务往往需要使用新的特征；（2）这种特征一般是人不可理解的，所以不能用于相关的语义监督；（3）如何从这种任务相关的特征中重构出原始的数据，依然有待研究。为了弥补以上不足，本文尝试提出一种人可以理解的语义压缩框架：跨模态压缩。

跨模态压缩将高语义冗余的数据（例如图像，视频等）压缩到一个语义紧凑的、通用的、人可理解的压缩域中（例如文本，语义图，素描图等）。它具有如下特点：（1）可以在满足一定语义保真的前提下实现超高的压缩率；（2）这种通用的紧凑表示可以用于多种分析任务，而不需要将原始数据重构出来；（3）这种紧凑的表示是人可理解的，所以可以直接用于语义监督；（4）在有必要的时候，可以结合生成模型从压缩域将原始的图像或视频重构出来。

图 1：不同类型的保真度量

跨模态压缩与传统的图像/视频压缩框架是基于块的混合编码框架，最终层特征压缩（Ultimate Feature Compression），中间层特征压缩（Intermedia Feature Compression）等之间的不同特点如表1所示。

表 1：跨模态压缩与其它几种压缩框架的比较

图 2：本文所提的跨模态压缩框架示意图

跨模态压缩的概念与基本框架

数据压缩的目标是在特定保真下降低数据传输和存储的代价，优化目标可以表示为：

$g=D+\lambda R,$

其中 $R$ 表示码率， $D$ 表示重构信号相比于原始信号的畸变，也就是保真度量，Chen等人[12]将保真度量分为三个层次：信号保真，感知保真和语义保真，如图1所示。跨模态压缩的目标是在一定的语义保真约束下，将数据从高语义冗余的模态压缩到一个语义紧凑的，通用的，人可以理解的模态。这种模态表示可以用于多种机器分析任务，同时可以直接展示给人观看，也就是可以用于语义监督。在跨模态压缩中，最重要的任务就是定义一个压缩域 $Y$ ，这个压缩域是一个语义紧凑的，多任务通用的，人可以理解的域。在这个压缩域中，数据的压缩表示可以很容易的使用无损压缩编码为极低比特的比特流。相关框架的示意图如图2所示，跨模态压缩的框架主要包含四个模块：跨模态编码器，跨模态解码器，压缩域编码器和压缩域解码器。原始的图像或视频数据先通过跨模态编码器压缩为一个语义紧凑的表示，这个语义紧凑的表示可以通过跨模态解码器将原始的图像/视频给重构出来，在压缩域中可以通过压缩域编码器将紧凑表示编码为比特流，同时可以借助压缩域解码器将比特流解码为紧凑表示。比特流和畸变可以通过寻找一个紧凑的压缩域以及优化相关的跨模态编码/解码器来共同优化。

图 3：图像-文本-图像的跨模态压缩框架

一种跨模态压缩的具体实现

本节介绍跨模态压缩的一种具体实现：图像-文本-图像的跨模态压缩框架，如图3所示。借助于图像到文本翻译在近期的进展，理解一幅图像并用合乎语法的文本描述出来已经可以实现。同时，近期在文本到图像的翻译上的相关工作，也使得从文本中合成语义一致的图像逐渐成为可能。在跨模态压缩的实现中，通过定义压缩域 $Y$ 为文本域，那么跨模态编码器就是一个图像到文本的跨模态翻译模型，跨模态解码器就是一个文本到图像翻译的生成模型，这样就得到了图像-文本-图像的跨模态压缩模型。如图3所示，整个框架主要包含三个模块：（1）用于将原始图像压缩为文本表示的跨模态编码器；（2）文本压缩域中对文本进行无损压缩为比特流以及从比特流中无损解压出文本表示的压缩域编码/解码器；（3）用于将图像从文本中重构出来的跨模态解码器。

跨模态编码器用于将图像/视频数据压缩到一个紧凑的表示域，在图像-文本-图像跨模态压缩中这个压缩域是指文本域。本文使用一个基于卷积神经网络，循环神经网络和注意力机制的方法[6]来实现跨模态编码器。压缩域的表示被认为是语义紧凑的，特别是相比于原始的数据域来说。将数据从原始数据域压缩到语义紧凑的压缩域，已经除去了大部分的语义冗余。但是，在压缩域中，依然存在大量的统计冗余。根据香农信息论[4]，如果一个字符出现的概率是 $P$ ，那么他的最优码字长度是 $\mathrm{log}_{2}P$ 。在本文所定义的压缩域，即文本域中，文本字符的分布不是均匀分布，可以通过统计得到其先验分布。在具体的实现中，可以通过统计训练集中的字符分布来估计测试集上的分布。最终通过霍夫曼编码（Huffman Coding）[5]来消除字符的统计冗余。

跨模态解码器用于从压缩域表示重构数据。在所设计的图像-文本-图像跨模态压缩框架中，跨模态解码器需要从文本表示中重构图像。基于近几年图像到文本翻译的进展，此处使用基于注意力机制的文本到图像的翻译模型AttnGAN[8]来实现跨模态解码器。

数据集与评价指标

实验在文本到图像翻译的常用数据集MS COCO[11]和CUB-200[10]上进行。同时使用了四种不同层次的评价指标来评估模型的性能。使用感知得分（Inception Score, IS）评估生成图像在特征空间中的分布以及其边缘分布的距离来评估生成图像的真实性和多样性，其次是Fréchet起始距离（Fréchet Inception Distance, FID）通过评估生成图像和真实图像在特征分布上的距离，来评估生成图像和真实图像的相似度。同时，为了评估样本级别的相似性，本文还提出使用样例感知距离（Instance Perceptual Distance）来度量合成样本和真实样本在特征空间的距离，从而评估两者在样本级别的相似性。除了以上三个，实验中还报告了传统图像/视频压缩中信号层面的误差。

因为IS和FID都是在集合上定义的评价指标，都不能对样本级别的真实性做度量，所以本文在这里提出了IPD。IPD被定义为：

$\mathrm{IPD}=E_{x}\left | x_{re}-x \right |_{2}^{2},$

其中 $x/x_{re}$ 分别表示真实数据和重构数据在感知空间的表示。

实验结果

本文在MS COCO数据集和CUB-200数据集上的实验结果如图4所示。从图中结果可以看出，本文所提的图像-文本-图像跨模态压缩可以在CUB-200数据集上在实例层面重构输入图像，同时取得超高的压缩率，在MS COCO数据集上在实例层面部分重构输入图像，同时取得超高的压缩率。

图 4：图像-文本-图像的跨模态压缩框架在CUB200数据集(左)和MS COCO数据集(右)上的主观结果以及压缩倍数

为了定量评估本文所提出的框架的性能，本文将所提的图像-文本-图像跨模态压缩框架与目前使用的JPEG[1]和JPEG 2000[2]图像压缩标准进行了对比。通过设置不同的压缩质量，将测试集所有的图像用不同的压缩参数进行压缩并统计在整个测试集上的平均码率和平均畸变（畸变由前文所述的四种评价指标度量），可以得到一条码率-失真曲线（R-D curve），就像传统视频压缩中的性能曲线一样。实验结果如图5所示，在四个质量评价指标中，IS和FID是在集合层面的评价指标，IPD是样本/实例层面的评价指标，PSNR是像素级失真的评价指标。从图中的结果可以得出，本文所提的图像-文本-图像跨模态压缩框架在集合层面和实例层面可以取得和JPEG2000相当的性能，同时取得超高的压缩率。另一方面，在像素保真层面，本文所提方法暂时优势不大，最主要的原因是本文的生成模型没有考虑像素级的优化。

图 5：图像-文本-图像的跨模态压缩框架与JPEG和JPEG2000的比较结果

总结与展望

本文提出了跨模态压缩（Cross Modal Compression, CMC）的概念和框架，它是一种跨模态图像-文本的语义压缩框架。与前面的传统信号压缩，特征压缩等框架比较，跨模态压缩具有压缩域可理解，支持多任务分析，超高压缩率等特点。同时，本文还提出一个面向图像压缩的跨模态压缩一种具体实现：图像-文本-图像的跨模态压缩框架。相关的定性实验和定量实验说明所提的图像-文本-图像跨模态压缩框架在相关数据集上可以在集合和实例层面超过JPEG，并取得和JPEG2000相当的性能。相关实验证明了跨模态压缩框架在某些只要求集合和实例层面语义保真，但是要求超高压缩率的应用场合的应用前景，例如在极低带宽下的图像/视频的传输。

尽管取得了一定的进展，跨模态压缩依然是一个初步的概念和方法，依然有很多不够完善的方面。在未来的工作中，将对跨模态压缩在端到端优化，可伸缩的压缩，基于语义的度量指标，泛化性更强的跨模态压缩框架等方面做继续的完善和改进。

参考文献

[1] Wallace G K. Overview of the JPEG still image compression standard[C]//Image Processing Algorithms and Techniques. International Society for Optics and Photonics, 1990, 1244: 220-233.

[2] Marcellin M W, Gormish M J, Bilgin A, et al. An overview of JPEG-2000[C]//Proceedings DCC 2000. Data Compression Conference. IEEE, 2000: 523-541.

[3] Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3156-3164.

[4] Shannon C E. A mathematical theory of communication[J]. ACM SIGMOBILE mobile computing and communications review, 2001, 5(1): 3-55.

[5] Huffman D A. A method for the construction of minimum-redundancy codes[J]. Proceedings of the IRE, 1952, 40(9): 1098-1101.

[6] Reed S, Akata Z, Yan X, et al. Generative adversarial text to image synthesis[C]//International Conference on Machine Learning. PMLR, 2016: 1060-1069.

[7] Zhang H, Xu T, Li H, et al. Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 5907-5915.

[8] Xu T, Zhang P, Huang Q, et al. Attngan: Fine-grained text to image generation with attentional generative adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 1316-1324.

[9] Deng J, Dong W, Socher R, et al. Imagenet: A large-scale hierarchical image database[C]//2009 IEEE conference on computer vision and pattern recognition. Ieee, 2009: 248-255.

[10] Wah C, Branson S, Welinder P, et al. The caltech-ucsd birds-200-2011 dataset[J]. 2011.

[11] Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//European conference on computer vision. Springer, Cham, 2014: 740-755.

[12] Chen Z, He T. Learning based facial image compression with semantic fidelity metric[J]. Neurocomputing, 2019, 338: 16-25.