近年来,视频数据的爆炸式增长对视频分析提出了更高的需求,其中准确性与效率始终是核心关注点。深度神经网络(DNN)已被广泛应用以确保分析结果的准确性;然而,如何提升其在视频分析任务中的效率仍是一个未解的难题。不同于以往主要从准确性优化角度对基于 DNN 的视频分析进行综述的研究,本文旨在系统回顾提升 DNN 在视频分析中效率的优化技术。我们采用自底向上的方式对现有方法进行组织,涵盖硬件支持、数据处理、部署运行等多个维度。最后,基于所提出的优化框架及已有研究工作,我们进一步分析并探讨了当前 DNN 视频分析效率优化中存在的问题与挑战。
视频被视为信息传播的主要媒介。在日常生活中,短视频的广泛流行进一步推动了视频分析的发展,其已被应用于众多需要实时视频处理的领域,如自动驾驶车辆 [1, 2]、无人机 [3–5] 和视频监控分析 [6–8]。据统计,2017 至 2022 年期间,移动视频流量占总移动流量的 79% [9],这凸显了视频分析日益增长的重要性。因此,视频分析任务必须围绕两个关键评估指标展开:准确性与效率。视频分析的核心挑战在于如何准确且高效地提取所需信息。
由于视频数据量巨大以及实时应用对低延迟响应的需求,效率问题在基于深度神经网络(DNN)的视频分析中受到越来越多的关注。虽然 AlexNet [10]、ResNet [11] 和 VGGNet [12] 等 DNN 架构被广泛采用,能够有效保障分析准确性,但随着人工智能、5G 和物联网(IoT)技术的发展,以及实时交互式视频应用的激增 [4, 5, 13],用户对响应速度的期望不断提高,从而对系统效率提出了更高要求。因此,迫切需要持续探索新的优化技术,以提升视频分析应用的执行效率。
鉴于效率指标的重要性,已有大量研究致力于提升基于 DNN 的视频分析的效率。一类工作聚焦于通过底层存储系统与计算资源的优化来提高存储与计算效率,例如采用动态资源调度与优化存储编码等技术,以在资源受限条件下最大化模型执行效率。另一类研究则从系统部署角度出发提升操作效率,尤其关注智能物联网等真实应用场景。此类工作通常借助云端解决方案(如边缘压缩模型与边-云协同计算框架)来降低视频传输负载与延迟。硬件与软件技术的不断演进,以及用户提出的新型或更高的应用需求,也为基于 DNN 的视频分析的效率优化带来了新的挑战与机遇,亟需对相关技术进行系统性的总结与探讨。
近年来,已有若干关于基于 DNN 的视频分析的综述研究。其中一些工作 [14–19] 主要从特定视觉分析任务(如视频预测、视频场景分析)、特定视频类型(如体育视频)或特定应用领域出发,比较并总结了多种深度学习模型架构对分析准确性的贡献;另一些工作 [20–23] 则初步探讨了视频分析中的效率优化问题。然而,这些综述往往仅聚焦于视频分析流程的某一特定阶段(如模型部署阶段)进行总结。与上述工作不同,本文旨在系统性地总结基于 DNN 的视频分析中各层次的效率优化技术(见图1)。
本文的目标包括两个方面:首先,全面回顾基于 DNN 的视频分析中最新的效率优化技术,构建一个基础性的认知体系。我们采用自底向上的方式,从硬件、部署、算法到应用四个层次对相关工作进行梳理,分别对应优化系统中的存储支持层、计算系统层、DNN 算法层与应用层。其次,本文还将基于深入的研究讨论未来在提升 DNN 视频分析效率方面的发展趋势与挑战。
本文其余部分结构如下(见图1):第 2 节从存储介质与存储系统两个角度介绍面向 DNN 视频分析的存储优化方法;第 3 节涵盖多种系统性能优化技术,包括边缘侧与边-云协同部署模式;第 4 节总结在时间维度与空间维度上提升 DNN 推理性能的可行方法;第 5 节介绍围绕具体应用场景的视频应用优化方法;第 6 节分析基于 DNN 的视频分析效率优化所面临的机遇与挑战;第 7 节给出全文总结。