移动互联网时代每天都产生海量的质量参差不齐的视频数据,根据视频质量高效地过滤低质量视频对缓 解设备存储压力起着至关重要的作用.此外,在视频的生成、处理、传输等过程中都不可避免地引入信号噪声,如何 准确地预测视频质量,从而指导与监督视频处理与传输系统的优化具有重要的研究意义和实际价值.因此,视频质 量评价受到越来越多的关注.视频质量评价旨在定量描述视频的视觉质量,包括主观质量评价和客观质量评价.主 观质量评价通过开展视觉感知主观实验,研究各项因素对视觉质量的影响,并收集主观质量分数用于构建基准数据 集;客观质量评价通过设计客观算法,自动预测视频的质量 .本文首先介绍视频质量评价的基础知识,阐述视频质 量评价的相关应用和问题;其次,重点介绍视频质量评价近二十年的发展现状,对比不同主观数据集的特点;然后, 深入解析客观模型的建模思想,分层次对比不同的模型,详细分析各模型的优缺点;最后,指出未来发展方向并总结 全文.

在当前的移动互联网时代,视频图像已经成为 人们日常生产、生活中重要的数据来源[1-4] . 在视频 的获取、传输、处理、存储、显示等过程中都可能出现 扰动,导致视频质量出现下降,进而影响用户的视觉 体验. 准确地度量视频的质量已经成为多媒体处理 中重要的一项技术,受到工业界和学术界的广泛关 注. 视频质量评价(Video Quality Assessment, VQA) 指的是对视频信号进行分析,定量描述视频的视觉 失真情况[5-6] . VQA 包括主观质量评价和客观质量 评价 . 主观质量评价指的是开展大规模主观实验, 研究各种影响因素对主观感知的影响及作用,为客 观模型的设计提供理论基础,并为客观模型的性能 计算提供基准;客观质量评价指的是构建 VQA 数 学模型,能够自动地预测视频的质量,并期望获得与 主观感知一致的预测结果 . 根据参考信息依赖程 度,VQA 模型可分为:(1)全参考(Full Reference, FR);(2)半参考(Reduced Reference, RR);(3)无参 考(No Reference, NR). 其 中,FR-VQA 模 型 和 RR-VQA 模型在计算视频质量时分别需要全部和 部分参考信息,而NR-VQA模型在计算时不需要任 何参考信息. 上述分类方法是根据视频参考信息的 依赖程度对 VQA模型进行分类,不涉及到 VQA模 型构建时依赖的知识. 另一种分类方法[7] 是根据模型 构建时依赖的先验知识来划分,将VQA模型大致分 为三种:(1)依赖信号源先验知识的模型;(2)依赖人 类视觉系统(Human Visual System, HVS)先验知识 的模型;(3)依赖失真先验知识的模型 . 其中,信号 源知识指的是无失真信号视觉内容的本质,可直接 从信号源或统计特性获取;HVS先验知识来源于视 觉生理学和心理物理学研究;失真先验知识指的是 失真类型及其特性,研究者可以根据失真类型及其特性针对性地设计数学模型 . VQA 作为视频处理 和视频理解领域的一个基础问题,它的具体应用[5-8] 主要包括三点:

(1)数据筛选:比如在视频图像采集系统中, VQA模型可用于采集系统的视频图像质量监控;视 频服务商可以根据视频的质量对视频进行筛选,去 除质量较差的视频 . 另外,视频质量可以作为视频 的重要属性用于其他任务,如视频检索等.

(2)参数选择 . 常用的参数选择是网格搜索 (Grid Search, GS),即在候选的参数组合中寻找到 最优的参数组合 . 在 GS 过程中,可以使用 VQA 模 型预测的质量作为选择依据[9][- 10] . 当视频处理过程 由多个算法组成时,在迭代处理的过程中可根据视 频质量选择合适的算法序列,使得最终的处理结果 视觉质量最好[11] . 另外,VQA 算法可作为模型设计 和验证的性能指标,用于比较不同的视频处理算法, 从而确定性能最好的视频处理算法[6] . (3)模型/系统优化 . 在 VQA 研究不断发展的 过程中,视频处理模型/系统优化获得了越来越多的 关注. 在模型优化中,最常用的VQA方法是均方误 差(Mean Square Error, MSE)和 结 构 相 似 性 (Structural Similarity, SSIM)算法[12] . 针对不同的 任务,可以使用合适的 VQA 算法作为损失函数去 优化模型[13][- 17] . 另外,VQA算法可用于视频传输系 统每个阶段的检测、优化和管理[18] . 从早期研究中的合成失真、算法相关失真到真 实失真,从视觉感知启发的 VQA 模型到数据驱动 的深度 VQA 模型,VQA 的发展呈现通用化和智能 化 . 并且,随着主观数据集的丰富程度提高,VQA 模型的性能也有显著的提升. 然而,VQA的研究依 然存在一些问题: (1)数据集规模问题 . 相对于图像质量评价 (Image Quality Assessment, IQA)[19-21] 和其他图像 处理和计算机视觉任务如视频图像分类[22-23] 、视频 理解[24] 等,公开的视频质量主观数据集规模依然十 分有限 . 据我们所知,最大的视频质量主观数据集 包含不到 4 万个视频(含完整的主观标注),大部分 视频质量主观数据集包含少于1千个视频. (2)模型构建问题 . 相对于 IQA 模型,VQA 模 型在度量视频质量时一般会考虑时空信息或时域信 息,常用的计算方法包括帧差法、光流法和卷积神经 网 络(Convolutional Neural Network, CNN)模 型 (如 3D-CNN)等,往往忽略了空域信息、时空信息 和时域信息在捕捉视频降质的作用[25] . (3)性能和效率兼顾问题 . 该问题是视频理解 相关领域的一个经典问题,研究者针对这一问题提 出了许多解决方案,包括针对输入[26-27] 和模型[28-29] 的 设计. 然而,VQA研究很少考虑该问题. (4)应用问题 . 得益于多数 IQA 模型的易操作 性、可导性以及 IQA 问题本身相对简易,IQA 模型 被广泛应用于其他领域,如多曝光图像融合、高动态 范围图像色调映射、超分辨率、去噪、修复等[17] . VQA在视频处理相关领域的应用相对局限,如视频 编码[30-31] 、传输[32] 和增强[33-35] 等 . 大部分应用仍然使 用IQA模型作为客观评价指标[36-38] . 研究者近二十年开展了大量的 IQA和 VQA研 究工作,然而目前大部分相关综述论文都是针对 IQA[39-44] 的 . 虽然有少数针对 VQA 的综述[45-47] ,但 是 它 们 介 绍 的 内 容 涵 盖 面 较 小 . 具 体 而 言,文 献[45]分别对 IQA 和 VQA 研究发展进行了描述, 然而该文献仅介绍了针对二维视频1 设计的VQA模 型,忽略了很多最新的 VQA模型,并且内容的区分 也不够清晰;文献[46]详细介绍了主观质量评价和 客观质量评价,但是该文献发表于 2011 年,未介绍 最新的 VQA 研究进展;文献[47]是目前为止最新、 最全面的 VQA 研究综述,但是它没有关于主观评 价内容的介绍,且仅介绍了针对二维视频的研究工 作而未介绍最新的VQA模型. 考虑到现有的VQA 综述论文[45-47] 存在的问题并受到其他综述论文[48-51] 的启发,本文系统性地介绍了 VQA 研究发展和最 新进展,涵盖主观评价和客观评价. 对于主观评价, 本文梳理了测试数据的选择、主观数据收集方法及 对比和各种内容视频质量主观数据集对比;对于客 观评价,为了兼顾篇幅的平衡,本文根据视频内容的 不同分别介绍二维视频和其他内容视频包括屏幕内 容视频、三维视频、合成视频和全景视频客观模型 (分别在第3节和第4节介绍);并从建模方式的角度 对主流的 VQA 模型分门别类,详细介绍它们的建 模思想和区别. 本文内容框架如图1所示.

总体而言,本文的贡献在于: (1)详细地介绍了主观质量评价方案,以及它们 各自的适用场景;从建模的角度介绍了当前 VQA 模型的设计思路,并介绍了主流的和新近提出的评 价指标. (2)完整地介绍了现有的视频质量主观数据 集,并对比了不同数据集的构建策略及特点. (3)系统地梳理了针对各类视频设计的客观质 量评价模型,深入解析各个模型的设计原理及思路, 并指出当前发展现状和未来发展趋势. 本文的后续章节的内容安排如下:第 2 节介绍 主观实验、客观模型和评价指标基础知识;第3节详 细介绍二维视频质量评价,描述当前发展现状和客 观模型的设计理念;第 4 节详细介绍其他类型视频 质量评价,重点突出各类视频的特点和相应的客观 模型设计思想;第5节指出未来潜在的研究方向;第 6节对全文进行总结.

成为VIP会员查看完整内容
26

相关内容

「深度学习视频分析系统」最新2022研究进展综述
专知会员服务
42+阅读 · 2022年11月5日
小目标检测研究综述
专知会员服务
147+阅读 · 2022年8月27日
从视频到语言: 视频标题生成与描述研究综述
专知会员服务
19+阅读 · 2022年1月8日
监控视频的异常检测与建模综述
专知会员服务
48+阅读 · 2021年12月27日
编码计算研究综述
专知会员服务
21+阅读 · 2021年10月26日
专知会员服务
21+阅读 · 2021年10月9日
专知会员服务
91+阅读 · 2021年8月29日
专知会员服务
70+阅读 · 2021年5月21日
基于深度学习的视频目标检测综述
专知会员服务
82+阅读 · 2021年5月19日
专知会员服务
14+阅读 · 2021年3月26日
「基于通信的多智能体强化学习」 进展综述
流程/过程挖掘(Process Mining)最新综述
PaperWeekly
23+阅读 · 2022年9月19日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
情感计算综述
人工智能学家
32+阅读 · 2019年4月6日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
基于深度学习的目标检测算法综述
AI研习社
14+阅读 · 2018年4月25日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
404+阅读 · 2023年3月31日
Arxiv
144+阅读 · 2023年3月24日
VIP会员
相关VIP内容
「深度学习视频分析系统」最新2022研究进展综述
专知会员服务
42+阅读 · 2022年11月5日
小目标检测研究综述
专知会员服务
147+阅读 · 2022年8月27日
从视频到语言: 视频标题生成与描述研究综述
专知会员服务
19+阅读 · 2022年1月8日
监控视频的异常检测与建模综述
专知会员服务
48+阅读 · 2021年12月27日
编码计算研究综述
专知会员服务
21+阅读 · 2021年10月26日
专知会员服务
21+阅读 · 2021年10月9日
专知会员服务
91+阅读 · 2021年8月29日
专知会员服务
70+阅读 · 2021年5月21日
基于深度学习的视频目标检测综述
专知会员服务
82+阅读 · 2021年5月19日
专知会员服务
14+阅读 · 2021年3月26日
相关资讯
「基于通信的多智能体强化学习」 进展综述
流程/过程挖掘(Process Mining)最新综述
PaperWeekly
23+阅读 · 2022年9月19日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
情感计算综述
人工智能学家
32+阅读 · 2019年4月6日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
基于深度学习的目标检测算法综述
AI研习社
14+阅读 · 2018年4月25日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员