CompressAI:InterDigital开源基于学习的图像视频压缩研究库

CompressAI:InterDigital开源基于学习的图像视频压缩研究库

编译 | CV 君
报道 | 我爱计算机视觉公众号(id:aicvml)

在多媒体技术应用领域,图像视频编解码居于基础地位,在任何图像和视频应用的存储和传输中,都要涉及图像视频的压缩和解压。在音视频数据不断爆炸式发展的今天,追求高质量低数据量(低成本)的编解码仍然是产业界的巨大需求。

随着深度学习的兴起,近年来不断有基于学习的图像视频编解码工作被提出,尽管距离大规模商用尚有距离(据该领域从业人员称,深度学习的编解码效果尚可,但计算量较大),但几乎你能想到的IT和互联网巨头都投入重兵研发,也许该领域正处于突破性创新爆发的前夜。

近日,知名移动通信和视频技术研发公司 InterDigital 开源了基于学习的压缩库 CompressAI,相信对于该领域的研究者会有一定帮助。

在其论文 CompressAI: a PyTorch library and evaluation platform for end-to-end compression research 介绍了这一开源库。



InterDigital 是谁?

InterDigital 是一家美国专注于移动通讯(3G、4G、5G及其演进等)和视频(H.264/H.265/HEVC及其演进)技术的研发公司,在这两个特别需要标准互通的领域,研发新技术并参与标准制定,但其并不实际生产产品,而是靠专利授权/诉讼获得收入。

说白了,InterDigital 是商业嗅觉敏锐、靠研发新技术申请专利并埋到国际标准里的纯研发公司。

站在食物链的最顶端,这家公司曾经与摩托罗拉、爱立信、诺基亚、华为、小米、高通等产业巨头发生诉讼。

CompressAI 是什么?

CompressAI 的出现是为了弥补PyTorch生态中并没有特别好的图像视频压缩研究库,该库实现了在压缩领域常用的操作、网络层和架构,实现了常见评价标准,并重新实现了业界的State-of-the-art算法,开放了预训练模型,为了促进该领域的发展。

该库目前包含的模型(部分模型是2020年才出现的):



使用该库可方便与以下传统方向比较算法效果:



其实现的模型与原作者工作的比较:



几乎完全复现了state-of-the-art的效果。

在Kodak数据集上该库实现的基于学习的编解码方法与传统的JPEG、WebP等方法的比较:



由上图可知,基于学习的方法相比传统方法在各码率段均具有明显优势。

在 Saint Malo 图像上的压缩结果可视化示例:





目前该库只提供了图片编解码的几个SOTA实现,不过作者称很快将加入视频编解码实例。

论文地址:arxiv.org/pdf/2011.0302

开源地址:github.com/InterDigital

TensorFlow竞品:github.com/tensorflow/c

相关阅读:

CVPR 2020|超越H.265,中科大使用多帧数据改进视频压缩新方法

发布于 2020-11-27 09:28