内容来源:
《中国图象图形学报》第7期论文
多模式3维视频形状编码
作者:朱仲杰,王玉儿,蒋刚毅.
单位:浙江万里学院宁波市DSP重点实验室
来源:中国图象图形学报, 2018, 23(7):953-960.
3D视频是一种能够提供多个视点信息和实现立体感知的新型视频。近年来随着3D技术的逐渐成熟和3D视频产业的迅猛崛起, 使得具有立体感和高端真实感的3D视频正发展成为大众化的视觉体验需求, 越来越受到学术界和产业界的关注和重视, 未来在3D影视、机器视觉、远程医疗、军事航天等领域将有着广泛的应用前景[1]。
对象基处理技术具有更好的语义理解、表达和交互性, 在图像和和视频领域的应用越来越广泛, 如对象基编码、对象基检索、对象基内容分析与理解等[2-3]。因此, 对象基3D视频技术是未来3D视频技术的重要发展趋势。在对象基3D视频应用中, 由于形状是进行视觉对象定义、表示与处理的关键信息, 因此高效形状编码是对象基3D视频应用中的一个核心和关键问题。
形状编码根据原理可以分为基于位图和基于轮廓的编码方法。基于位图的方法一般是将对象形状用一个二值掩模图像表示, 对形状编码等效于对二值掩模图像进行编码。此类方法的典型代表有JBIG(bi-level image experts group), JBIG2 (bi-level image experts group, version 2), MPEG-4 (moving picture experts group 4)基于上下文的算术编码(MPEG-4 CAE)等[4-6]。不同于基于位图的方法, 基于轮廓的形状编码首先提取对象轮廓, 然后对轮廓曲线进行编码, 包括基于链码和基于曲线拟合的方法等。
近年来, 有很多学者从事形状编码方面的研究并取得了创新性研究成果。文献[7]提出了一种基于算术编码的二值图像形状编码方法。它利用目标轮廓中存在的局部线性边缘来增强算术编码上下文建模的准确性, 从而提高编码效率。
文献[8]提出了一种四分树结构的基于上下文算术编码的形状编码方案。Lai等人研究了率失真优化形状编码中的边缘选择与优化编码问题, 提出了基于8分区和16分区的边缘编码方案, 可以降低待编码定点数从而提高编码效率[9]。
文献[10]提出了一种基于图像相关性的高效形状编码方法, 利用图像内容和对象形状之间的相关性来提高编码效率。
文献[11]通过分析对象轮廓链码的空域相关性和线性特征, 前期提出了基于轮廓和链码表示的高效形状编码方法。对于给定的形状图像, 提取对象轮廓和细化成严格单像素宽度后将其转换成链码表示, 并基于方向相关性将其分割成若干子段, 使得每个子段最多包含2个基本方向码, 在编码时每个链路只需要1个比特表示。同时结合线性检测, 分离出对象轮廓中的长线性子段采用行程编码进行高效压缩。实验结果显示, 与其他同类方法相比能大幅提高压缩效率。在此基础上, 进一步研究提出了结合空时预测的形状编码方案, 通过同时利用轮廓链码的帧内空域相关性和帧间时域相关性进一步提高了编码效率[12]。
目前的形状编码主要针对图像和视频对象, 面向3D视频的形状编码算法还很少。与图像和视频对象相比, 3D视频对象除了存在帧内轮廓的空域相关性和帧间轮廓的时域相关性外, 还存在视域轮廓间的空域相关性。因此, 在进行3D视频形状编码时可以综合利用这些相关性以提高编码效率。
[1] Gao Y, Wang M, Tao D C, et al. 3-D object retrieval and recognition with hypergraph analysis[J]. IEEE Transactions on Image Processing, 2012, 21(9): 4290–4303. [DOI:10.1109/TIP.2012.2199502]
[2] Zhu Z J, Wang Y E, Jiang G Y. Unsupervised segmentation of natural images based on statistical modeling[J]. Neurocomputing, 2017, 252: 95–101. [DOI:10.1016/j.neucom.2016.03.117]
[3] Zhu Z J, Wang Y E, Jiang G Y. On multi-view video segmentation for object-based coding[J]. Digital Signal Processing, 2012, 22(6): 954–960. [DOI:10.1016/j.dsp.2012.05.006]
[4] ISO/IEC JTC1/SC29. ISO/IEC-11544 Coded representation of picture and audio information-progressive bi-level image compression[S]. Japan: ISO/IEC, 1993.
[5] ISO/IEC JTC1/SC29. ISO/IEC-14492 Coded representation of picture and audio information-lossy/lossless coding of bi-Level images (JBIG2)[S]. Japan: ISO/IEC, 2000.
[6] ISO/IEC JTC1/SC29. ISO/IEC-14496-2 Information technology-coding of audio-visual objects-part 2: visual[S]. Japan: ISO/IEC, 1999.
[7] Aghito S M, Forchhammer S. Context-based coding of bilevel images enhanced by digital straight line analysis[J]. IEEE Transactions on Image Processing, 2006, 15(8): 2120–2130. [DOI:10.1109/TIP.2006.875168]
[8] Shen Z L, Frater M R, Arnold J F. Quad-tree block-based binary shape coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2008, 18(6): 845–850. [DOI:10.1109/TCSVT.2008.919086]
[9] Lai Z Y, Zhang F, Lin W S. Operational rate-distortion shape coding with dual error regularization[C]//Proceedings of 2014 IEEE International Conference on Image Processing. Paris, France: IEEE, 2014, 5547-5550.[DOI:10.1109/ICIP.2014.7026122]
[10] Luo H T. Image-dependent shape coding and representation[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2005, 15(3): 345–354. [DOI:10.1109/TCSVT.2004.842596]
[11] Zhu Z J, Wang Y E, Jiang G Y. High efficient shape coding based on the representation of contour and chain code[J]. Journal on Communications, 2014, 35(8): 8–14. [朱仲杰, 王玉儿, 蒋刚毅. 基于轮廓和链码表示的高效形状编码[J]. 通信学报, 2014, 35(8): 8–14. ] [DOI:10.3969/j.issn.1000-436x.2014.08.002]
[12] Zhu Z J, Wang Y E, Jiang G Y. Spatio-temporal shape prediction and efficient coding[J]. Journal of Image and Graphics, 2016, 21(1): 1–7. [朱仲杰, 王玉儿, 蒋刚毅. 空时形状预测与高效编码[J]. 中国图象图形学报, 2016, 21(1): 1–7. ] [DOI:10.11834/jig.20160101]
前沿丨观点丨咨讯丨独家
扫描下方二维码 关注学报公众号
中国图象图形学报 | 订阅号