视频处理与压缩技术

2021 年 3 月 26 日 专知

视频处理与压缩是多媒体计算与通信领域的核心主题之一，是连接视频采集传输和视觉分析理解的关键桥梁，也是诸多视频应用的基础。当前“5G+超高清+AI”正在引发多媒体计算与通信领域的新一轮重大技术革新，视频处理与压缩技术正在发生深刻变革，亟需突破针对视频大数据的高效紧凑表示理论和方法。为此，学术研究机构和工业界对视频大数据的视觉表示机理、视觉信息紧凑表达、视频信号重建与恢复、高层与低层视觉融合处理方法及相应硬件技术等前沿领域进行了广泛深入研究。本文从数字信号处理基础理论出发，分析了当前视频处理与压缩领域的热点问题和研究内容，包括基于统计先验模型的视频数据表示模型及处理方法、融合深度网络模型的视频处理技术、视频压缩技术以及视频压缩标准进展等领域。详细描述了视频超分辨率、视频重建与恢复、视频压缩技术等领域面临的前沿动态、发展趋势、技术瓶颈和标准化进程等内容，进一步对国际国内研究内容和发展现状进行了综合对比与分析。最后，展望了视频处理与压缩技术的技术发展与演进方向，更高质量视觉效果和高效率视觉表达之间将不再是单独研究的个体，融合类脑视觉系统及编码机理的视频处理与压缩技术将是未来研究的重要领域之一。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202012310000004&journal_id=jig

自上个世纪 40 年代诞生以来，计算机经历了数次革命性发展，将计算这一概念从单纯解决科学与工程技术中的数学问题扩展到更加广泛的数据处理和智能多媒体计算领域。视频作为承载了海量非结构化数据和应用最广泛的多媒体数据格式，已与人们的生活密不可分，是人类获得信息的重要途径之一，因而与视频相关的各种技术问题都得了到广泛关注。在视频技术的发展过程中，从模拟到数字的转换是一次伟大的技术革新，它带来数字信号处理等理论的构建，为该领域的持续发展奠定了基础。继数字化、高清化之后，视频技术正在经历由超高清和智能化等新一轮技术革新带来的跨越式发展。

20 世纪四五十年代是视频技术基础理论发展的关键期。这一时期最耀眼的明珠莫过于香农发表的《通信中的数学理论》以及信息论三大定理，它们奠定了信息论与编码研究的理论基础，这当中蕴含的数学原理在 70 年后的今天依然深刻，其中提出的信源编码、信道编码理论至今依然对高效通信系统具有巨大的影响。上世纪 70 年代是视频技术研究快速发展的时期。1979 年，美国工程院院士 A. Netravali 等人发表了《 Motion ‐ Compensated Transform Coding》，标志着基于块的预测变换混合编码框架正式建立。同时伴随着日趋成熟的电荷耦合器件（charge coupled device，CCD）和互补金属氧化物半导体（ complementary metal oxide semiconductor，CMOS）等成像技术的发展，视频处理领域具备了坚实的硬件基础。

20 世纪 80 年代是视频处理领域发展的萌芽期，由 R. Tsai 和 T. S. Huang 共同开创了视频超分辨率研究（Tsai 等人，1984）。而在神经网络研究方面，多层神经网络及其反向传播算法被提出，由此开启了视频处理与神经网络研究的热潮。在视频压缩领域，国际电报电话咨询委员会（ Consultative Committee of International Telegraph and Telephone， CCITT）则于 1984 年颁布了首个视频压缩国际标准 H.120。

90 年代至本世纪初，视频处理技术的研究热点包括基于对象的统计先验模型构建方法及其在视频重建，分辨率提升等领域的应用，这一时期主流的研究手段是建立高秩空间与低秩空间的局部线性嵌入表示。20 世纪的最后十年是视频压缩标准研究的黄金时代，这十年内国际标准化组织Organization for Standardization，ISO）/国际电工委员会（International Electrotechnical Commission， IEC）和国际电信联盟电信标准分局(International Telecommunication Union - Telecommunication Standardization Sector，ITU-T)标准组织先后发布了 MPEG 系列标准，H.261，H.263 以及 H.263+等国际标准。2006 年以后，随着算力和成对标注数据规模的提升，深度学习逐渐成为各研究领域的主流方法，深度神经网络无论在视频处理还是视频压缩任务中均能够大幅超越传统的基于统计模型规则的方法。后来陆续提出了多种深度网络模型结构及其优化方法，并将视频处理和压缩任务从局部优化迁移到端到端整体优化。

随着当今智能化与信息化时代的来临，以数字视频为核心内容的多媒体技术在各行各业蓬勃发展，特别是移动互联网的飞速演进为数字视频创造了更广阔的应用空间。视频技术是智慧城市、视觉通讯等领域的核心技术，也是智能交通、智慧医疗、远程教育等行业应用不可或缺的关键模块。据统计，视频相关产业规模已超过数万亿，是促进国家产业转型与升级，关乎国计民生的重要支柱。

视频行业的核心需求是将视频实时高清的呈现给用户，这其中的技术基础是视频处理和压缩。首先，视频获取过程不可避免的引入信号失真，为提高视频用户体验，对视频进行实时高效的处理以提高其质量非常必要。另一方面，产业规模的扩大和应用场景的拓宽衍生了海量非结构化视频数据，高效的传输和存储是确保视频产业健康发展的基础，而视频压缩技术正是实现视频紧致表达的关键。面向视频产业的发展需求，本年度发展报告将从视频压缩和处理两个基础关键技术着手进行研究，归纳其发展现状，从国内外研究基础与现状入手分析领域关键技术并展望未来发展空间。

专知便捷查看