视频处理与压缩是多媒体计算与通信领域的核心主题之一,是连接视频采集传输和视觉分析理解的关键桥梁,也是诸多视频应用的基础。当前“5G+超高清+AI”正在引发多媒体计算与通信领域的新一轮重大技术革新,视频处理与压缩技术正在发生深刻变革,亟需突破针对视频大数据的高效紧凑表示理论和方法。为此,学术研究机构和工业界对视频大数据的视觉表示机理、视觉信息紧凑表达、视频信号重建与恢复、高层与低层视觉融合处理方法及相应硬件技术等前沿领域进行了广泛深入研究。本文从数字信号处理基础理论出发,分析了当前视频处理与压缩领域的热点问题和研究内容,包括基于统计先验模型的视频数据表示模型及处理方法、融合深度网络模型的视频处理技术、视频压缩技术以及视频压缩标准进展等领域。详细描述了视频超分辨率、视频重建与恢复、视频压缩技术等领域面临的前沿动态、发展趋势、技术瓶颈和标准化进程等内容,进一步对国际国内研究内容和发展现状进行了综合对比与分析。最后,展望了视频处理与压缩技术的技术发展与演进方向,更高质量视觉效果和高效率视觉表达之间将不再是单独研究的个体,融合类脑视觉系统及编码机理的视频处理与压缩技术将是未来研究的重要领域之一。

自上个世纪 40 年代诞生以来,计算机经历了数 次革命性发展,将计算这一概念从单纯解决科学与 工程技术中的数学问题扩展到更加广泛的数据处理 和智能多媒体计算领域。视频作为承载了海量非结 构化数据和应用最广泛的多媒体数据格式,已与人 们的生活密不可分,是人类获得信息的重要途径之 一,因而与视频相关的各种技术问题都得了到广泛 关注。在视频技术的发展过程中,从模拟到数字的 转换是一次伟大的技术革新,它带来数字信号处理 等理论的构建,为该领域的持续发展奠定了基础。继数字化、高清化之后,视频技术正在经历由超高 清和智能化等新一轮技术革新带来的跨越式发展。

20 世纪四五十年代是视频技术基础理论发展的 关键期。这一时期最耀眼的明珠莫过于香农发表的 《通信中的数学理论》以及信息论三大定理,它们 奠定了信息论与编码研究的理论基础,这当中蕴含 的数学原理在 70 年后的今天依然深刻,其中提出的 信源编码、信道编码理论至今依然对高效通信系统 具有巨大的影响。上世纪 70 年代是视频技术研究快 速发展的时期。1979 年,美国工程院院士 A. Netravali 等人发表了《 Motion ‐ Compensated Transform Coding》,标志着基于块的预测变换混合 编码框架正式建立。同时伴随着日趋成熟的电荷耦 合器件(charge coupled device,CCD)和互补金属 氧化物半导体( complementary metal oxide semiconductor,CMOS)等成像技术的发展,视频 处理领域具备了坚实的硬件基础。

20 世纪 80 年代是视频处理领域发展的萌芽期, 由 R. Tsai 和 T. S. Huang 共同开创了视频超分辨率 研究(Tsai 等人,1984)。而在神经网络研究方面, 多层神经网络及其反向传播算法被提出,由此开启 了视频处理与神经网络研究的热潮。在视频压缩领 域,国际电报电话咨询委员会 ( Consultative Committee of International Telegraph and Telephone, CCITT)则于 1984 年颁布了首个视频压缩国际标准 H.120。

90 年代至本世纪初,视频处理技术的研究热点 包括基于对象的统计先验模型构建方法及其在视频 重建,分辨率提升等领域的应用,这一时期主流的 研究手段是建立高秩空间与低秩空间的局部线性嵌 入表示。20 世纪的最后十年是视频压缩标准研究的 黄金时代,这十年内国际标准化组织(International Organization for Standardization,ISO)/国际电工委 员会(International Electrotechnical Commission, IEC)和国际电信联盟电信标准分局(International Telecommunication Union - Telecommunication Standardization Sector,ITU-T)标准组织先后发布了 MPEG 系列标准,H.261,H.263 以及 H.263+等国际 标准。

2006 年以后,随着算力和成对标注数据规模的 提升,深度学习逐渐成为各研究领域的主流方法, 深度神经网络无论在视频处理还是视频压缩任务中 均能够大幅超越传统的基于统计模型规则的方法。后来陆续提出了多种深度网络模型结构及其优化方 法,并将视频处理和压缩任务从局部优化迁移到端 到端整体优化。

随着当今智能化与信息化时代的来临,以数字视 频为核心内容的多媒体技术在各行各业蓬勃发展, 特别是移动互联网的飞速演进为数字视频创造了更 广阔的应用空间。视频技术是智慧城市、视觉通讯 等领域的核心技术,也是智能交通、智慧医疗、远 程教育等行业应用不可或缺的关键模块。据统计, 视频相关产业规模已超过数万亿,是促进国家产业 转型与升级,关乎国计民生的重要支柱。

视频行业的核心需求是将视频实时高清的呈现 给用户,这其中的技术基础是视频处理和压缩。首 先,视频获取过程不可避免的引入信号失真,为提 高视频用户体验,对视频进行实时高效的处理以提 高其质量非常必要。另一方面,产业规模的扩大和 应用场景的拓宽衍生了海量非结构化视频数据,高 效的传输和存储是确保视频产业健康发展的基础, 而视频压缩技术正是实现视频紧致表达的关键。面 向视频产业的发展需求,本年度发展报告将从视频 压缩和处理两个基础关键技术着手进行研究,归纳 其发展现状,从国内外研究基础与现状入手分析领 域关键技术并展望未来发展空间。

成为VIP会员查看完整内容
35

相关内容

最新《神经架构搜索NAS》报告,附46页ppt与视频
专知会员服务
35+阅读 · 2020年12月30日
最新《图神经网络模型与应用》综述论文
专知会员服务
293+阅读 · 2020年8月2日
深度学习目标检测方法综述
专知会员服务
274+阅读 · 2020年8月1日
专知会员服务
103+阅读 · 2020年3月12日
深度学习详解
人工智能学家
5+阅读 · 2019年4月25日
深度学习之视频图像压缩
论智
13+阅读 · 2018年6月15日
一文读懂图像压缩算法
七月在线实验室
16+阅读 · 2018年5月2日
一文读懂神经网络(附PPT、视频)
数据派THU
17+阅读 · 2018年3月25日
一文让你入门CNN,附3份深度学习视频资源
机器学习算法与Python学习
12+阅读 · 2018年3月10日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
Arxiv
22+阅读 · 2018年8月30日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Arxiv
3+阅读 · 2018年3月29日
Arxiv
7+阅读 · 2017年12月26日
VIP会员
相关资讯
深度学习详解
人工智能学家
5+阅读 · 2019年4月25日
深度学习之视频图像压缩
论智
13+阅读 · 2018年6月15日
一文读懂图像压缩算法
七月在线实验室
16+阅读 · 2018年5月2日
一文读懂神经网络(附PPT、视频)
数据派THU
17+阅读 · 2018年3月25日
一文让你入门CNN,附3份深度学习视频资源
机器学习算法与Python学习
12+阅读 · 2018年3月10日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
微信扫码咨询专知VIP会员