视频质量评价研究综述

移动互联网时代每天都产生海量的质量参差不齐的视频数据，根据视频质量高效地过滤低质量视频对缓解设备存储压力起着至关重要的作用.此外，在视频的生成、处理、传输等过程中都不可避免地引入信号噪声，如何准确地预测视频质量，从而指导与监督视频处理与传输系统的优化具有重要的研究意义和实际价值.因此，视频质量评价受到越来越多的关注.视频质量评价旨在定量描述视频的视觉质量，包括主观质量评价和客观质量评价.主观质量评价通过开展视觉感知主观实验，研究各项因素对视觉质量的影响，并收集主观质量分数用于构建基准数据集；客观质量评价通过设计客观算法，自动预测视频的质量 .本文首先介绍视频质量评价的基础知识，阐述视频质量评价的相关应用和问题；其次，重点介绍视频质量评价近二十年的发展现状，对比不同主观数据集的特点；然后，深入解析客观模型的建模思想，分层次对比不同的模型，详细分析各模型的优缺点；最后，指出未来发展方向并总结全文.

在当前的移动互联网时代，视频图像已经成为人们日常生产、生活中重要的数据来源［1-4］ . 在视频的获取、传输、处理、存储、显示等过程中都可能出现扰动，导致视频质量出现下降，进而影响用户的视觉体验. 准确地度量视频的质量已经成为多媒体处理中重要的一项技术，受到工业界和学术界的广泛关注. 视频质量评价（Video Quality Assessment， VQA）指的是对视频信号进行分析，定量描述视频的视觉失真情况［5-6］ . VQA 包括主观质量评价和客观质量评价 . 主观质量评价指的是开展大规模主观实验，研究各种影响因素对主观感知的影响及作用，为客观模型的设计提供理论基础，并为客观模型的性能计算提供基准；客观质量评价指的是构建 VQA 数学模型，能够自动地预测视频的质量，并期望获得与主观感知一致的预测结果 . 根据参考信息依赖程度，VQA 模型可分为：（1）全参考（Full Reference， FR）；（2）半参考（Reduced Reference， RR）；（3）无参考（No Reference， NR）. 其中，FR-VQA 模型和 RR-VQA 模型在计算视频质量时分别需要全部和部分参考信息，而NR-VQA模型在计算时不需要任何参考信息. 上述分类方法是根据视频参考信息的依赖程度对 VQA模型进行分类，不涉及到 VQA模型构建时依赖的知识. 另一种分类方法［7］是根据模型构建时依赖的先验知识来划分，将VQA模型大致分为三种：（1）依赖信号源先验知识的模型；（2）依赖人类视觉系统（Human Visual System， HVS）先验知识的模型；（3）依赖失真先验知识的模型 . 其中，信号源知识指的是无失真信号视觉内容的本质，可直接从信号源或统计特性获取；HVS先验知识来源于视觉生理学和心理物理学研究；失真先验知识指的是失真类型及其特性，研究者可以根据失真类型及其特性针对性地设计数学模型 . VQA 作为视频处理和视频理解领域的一个基础问题，它的具体应用［5-8］主要包括三点：

（1）数据筛选：比如在视频图像采集系统中， VQA模型可用于采集系统的视频图像质量监控；视频服务商可以根据视频的质量对视频进行筛选，去除质量较差的视频 . 另外，视频质量可以作为视频的重要属性用于其他任务，如视频检索等.

（2）参数选择 . 常用的参数选择是网格搜索（Grid Search， GS），即在候选的参数组合中寻找到最优的参数组合 . 在 GS 过程中，可以使用 VQA 模型预测的质量作为选择依据［9］［- 10］ . 当视频处理过程由多个算法组成时，在迭代处理的过程中可根据视频质量选择合适的算法序列，使得最终的处理结果视觉质量最好［11］ . 另外，VQA 算法可作为模型设计和验证的性能指标，用于比较不同的视频处理算法，从而确定性能最好的视频处理算法［6］ . （3）模型/系统优化 . 在 VQA 研究不断发展的过程中，视频处理模型/系统优化获得了越来越多的关注. 在模型优化中，最常用的VQA方法是均方误差（Mean Square Error， MSE）和结构相似性（Structural Similarity， SSIM）算法［12］ . 针对不同的任务，可以使用合适的 VQA 算法作为损失函数去优化模型［13］［- 17］ . 另外，VQA算法可用于视频传输系统每个阶段的检测、优化和管理［18］ . 从早期研究中的合成失真、算法相关失真到真实失真，从视觉感知启发的 VQA 模型到数据驱动的深度 VQA 模型，VQA 的发展呈现通用化和智能化 . 并且，随着主观数据集的丰富程度提高，VQA 模型的性能也有显著的提升. 然而，VQA的研究依然存在一些问题：（1）数据集规模问题 . 相对于图像质量评价（Image Quality Assessment， IQA）［19-21］和其他图像处理和计算机视觉任务如视频图像分类［22-23］、视频理解［24］等，公开的视频质量主观数据集规模依然十分有限 . 据我们所知，最大的视频质量主观数据集包含不到 4 万个视频（含完整的主观标注），大部分视频质量主观数据集包含少于1千个视频. （2）模型构建问题 . 相对于 IQA 模型，VQA 模型在度量视频质量时一般会考虑时空信息或时域信息，常用的计算方法包括帧差法、光流法和卷积神经网络（Convolutional Neural Network， CNN）模型（如 3D-CNN）等，往往忽略了空域信息、时空信息和时域信息在捕捉视频降质的作用［25］ . （3）性能和效率兼顾问题 . 该问题是视频理解相关领域的一个经典问题，研究者针对这一问题提出了许多解决方案，包括针对输入［26-27］和模型［28-29］的设计. 然而，VQA研究很少考虑该问题. （4）应用问题 . 得益于多数 IQA 模型的易操作性、可导性以及 IQA 问题本身相对简易，IQA 模型被广泛应用于其他领域，如多曝光图像融合、高动态范围图像色调映射、超分辨率、去噪、修复等［17］ . VQA在视频处理相关领域的应用相对局限，如视频编码［30-31］、传输［32］和增强［33-35］等 . 大部分应用仍然使用IQA模型作为客观评价指标［36-38］ . 研究者近二十年开展了大量的 IQA和 VQA研究工作，然而目前大部分相关综述论文都是针对 IQA［39-44］的 . 虽然有少数针对 VQA 的综述［45-47］，但是它们介绍的内容涵盖面较小 . 具体而言，文献［45］分别对 IQA 和 VQA 研究发展进行了描述，然而该文献仅介绍了针对二维视频1 设计的VQA模型，忽略了很多最新的 VQA模型，并且内容的区分也不够清晰；文献［46］详细介绍了主观质量评价和客观质量评价，但是该文献发表于 2011 年，未介绍最新的 VQA 研究进展；文献［47］是目前为止最新、最全面的 VQA 研究综述，但是它没有关于主观评价内容的介绍，且仅介绍了针对二维视频的研究工作而未介绍最新的VQA模型. 考虑到现有的VQA 综述论文［45-47］存在的问题并受到其他综述论文［48-51］的启发，本文系统性地介绍了 VQA 研究发展和最新进展，涵盖主观评价和客观评价. 对于主观评价，本文梳理了测试数据的选择、主观数据收集方法及对比和各种内容视频质量主观数据集对比；对于客观评价，为了兼顾篇幅的平衡，本文根据视频内容的不同分别介绍二维视频和其他内容视频包括屏幕内容视频、三维视频、合成视频和全景视频客观模型（分别在第3节和第4节介绍）；并从建模方式的角度对主流的 VQA 模型分门别类，详细介绍它们的建模思想和区别. 本文内容框架如图1所示.

总体而言，本文的贡献在于：（1）详细地介绍了主观质量评价方案，以及它们各自的适用场景；从建模的角度介绍了当前 VQA 模型的设计思路，并介绍了主流的和新近提出的评价指标. （2）完整地介绍了现有的视频质量主观数据集，并对比了不同数据集的构建策略及特点. （3）系统地梳理了针对各类视频设计的客观质量评价模型，深入解析各个模型的设计原理及思路，并指出当前发展现状和未来发展趋势. 本文的后续章节的内容安排如下：第 2 节介绍主观实验、客观模型和评价指标基础知识；第3节详细介绍二维视频质量评价，描述当前发展现状和客观模型的设计理念；第 4 节详细介绍其他类型视频质量评价，重点突出各类视频的特点和相应的客观模型设计思想；第5节指出未来潜在的研究方向；第 6节对全文进行总结.

成为VIP会员查看完整内容