视频的传输占据了互联网75%以上的带宽,而COVID-19疫情更加突显了视频会议和视频直播等任务对于图像/视频压缩技术的需求。传统的视频编码标准正在被基于学习的压缩方法不断追赶,具体到图像压缩领域,最新的端到端的图像压缩神经网络率失真性能已经超过了H.266帧内编码,并且在主观性能上远远好于传统的图像压缩算法。
在端到端的压缩框架中,需要在隐藏层对近乎连续的数据进行离散化,所以量化(Quantization)操作是图像/视频压缩网络中一个非常重要的组成部分。但是量化函数的导数几乎处处为0,要想端到端的优化一个图像压缩网络,必须要对量化操作进行近似使其可以有效进行梯度回传。之前对量化层的处理方法大体上可以分为三类,加性均值噪声代替量化(additive uniform noise),直接梯度回传(straight-through estimator),以及从软到硬的退火方法(soft-to-hard annealing)。我们在本文中首先对这三种方法进行了详细分析,最终发现这三种方法会遇到不同的问题,从不同的角度影响了图像压缩网络的性能。我们进而提出了一种全新的两阶段量化策略,解决了这些问题。在本文中,我们还通过推导率失真损失函数的新的近似公式,使得压缩网络在量化的时候可以有效学习得到灵活的量化步长,进而进行空域码率分配。实验证明我们提出的两阶段量化策略以及自适应产生量化步长的方法,通过很少的额外参数有效提升了压缩性能,在复杂模型上的训练也很稳定,并且有望拓展到视频压缩方案中。