CompressAI：InterDigital开源基于学习的图像视频压缩研究库

编译 | CV 君
报道 | 我爱计算机视觉公众号（id:aicvml）

在多媒体技术应用领域，图像视频编解码居于基础地位，在任何图像和视频应用的存储和传输中，都要涉及图像视频的压缩和解压。在音视频数据不断爆炸式发展的今天，追求高质量低数据量（低成本）的编解码仍然是产业界的巨大需求。

随着深度学习的兴起，近年来不断有基于学习的图像视频编解码工作被提出，尽管距离大规模商用尚有距离（据该领域从业人员称，深度学习的编解码效果尚可，但计算量较大），但几乎你能想到的IT和互联网巨头都投入重兵研发，也许该领域正处于突破性创新爆发的前夜。

近日，知名移动通信和视频技术研发公司 InterDigital 开源了基于学习的压缩库 CompressAI，相信对于该领域的研究者会有一定帮助。

在其论文 CompressAI: a PyTorch library and evaluation platform for end-to-end compression research 介绍了这一开源库。

InterDigital 是谁？

InterDigital 是一家美国专注于移动通讯（3G、4G、5G及其演进等）和视频（H.264/H.265/HEVC及其演进）技术的研发公司，在这两个特别需要标准互通的领域，研发新技术并参与标准制定，但其并不实际生产产品，而是靠专利授权/诉讼获得收入。

说白了，InterDigital 是商业嗅觉敏锐、靠研发新技术申请专利并埋到国际标准里的纯研发公司。

站在食物链的最顶端，这家公司曾经与摩托罗拉、爱立信、诺基亚、华为、小米、高通等产业巨头发生诉讼。

CompressAI 的出现是为了弥补PyTorch生态中并没有特别好的图像视频压缩研究库，该库实现了在压缩领域常用的操作、网络层和架构，实现了常见评价标准，并重新实现了业界的State-of-the-art算法，开放了预训练模型，为了促进该领域的发展。

该库目前包含的模型（部分模型是2020年才出现的）：

使用该库可方便与以下传统方向比较算法效果：

其实现的模型与原作者工作的比较：

几乎完全复现了state-of-the-art的效果。

在Kodak数据集上该库实现的基于学习的编解码方法与传统的JPEG、WebP等方法的比较：

由上图可知，基于学习的方法相比传统方法在各码率段均具有明显优势。

在 Saint Malo 图像上的压缩结果可视化示例：

目前该库只提供了图片编解码的几个SOTA实现，不过作者称很快将加入视频编解码实例。

相关阅读：

CVPR 2020｜超越H.265，中科大使用多帧数据改进视频压缩新方法

发布于 2020-11-27 09:28