随着网络视频采集设备和应用的广泛发展,如何高效地为用户提供所需的视频内容提出了更高的要求。视频摘要通过创建一个紧凑的视频摘要,方便快速掌握视频内容。很多人致力于视频自动摘要,并提出了各种问题设置和方法。我们的目标是提供这个领域的概述。本综述涵盖了利用深度学习技术的早期研究以及最近的方法。我们描述了视频摘要方法及其基本概念。我们还讨论了基准和评估。我们概述了以前的工作如何处理评估,并详细介绍了评估协议的优点和缺点。最后,我们将讨论该领域的开放挑战。
互联网的广泛使用和价格低廉的视频捕获设备极大地改变了视频创作和消费的格局。特别是,随着视频流媒体服务和社交网络的发展,用户创建的视频比以往任何时候都更加流行。视频创作的快速增长需要先进的技术,以实现所需视频内容的高效消费。这些场景包括提高视频流服务观众的用户体验,为需要浏览大量视频的视频创作者和需要监控监控视频的安全团队提供快速视频浏览功能。
视频摘要通过创建一个紧凑的视频摘要,方便快速掌握视频内容。实现视频摘要的一种简单的方法是提高播放速度或以统一的间隔对短片段进行采样。然而,前者会降低音频质量并扭曲运动(Benaim et al., 2020),而后者可能由于方法的随机采样性质而错过重要内容。与这些简单的解决方案不同,视频摘要的目的是提取观众想要的信息,以便更有效地浏览视频。
根据不同的应用场景,视频摘要的目的有很大的不同。对于体育比赛,观众希望看到对比赛结果至关重要的时刻,而对于监控,视频摘要需要包含不寻常和值得注意的场景。随着越来越多的视频被创造出来,应用场景也在增长,例如,我们开始看到新的视频类型,如视频游戏直播和视频博客(vlog)。这就导致了视频摘要的新问题,因为不同类型的视频具有不同的特点,观众对摘要有不同的要求。这种多样化的应用刺激了该领域的异质研究。视频摘要解决两个主要问题:“一个理想的视频摘要的本质是什么”和“我们如何为视频内容建模”。答案取决于应用场景。虽然对于大多数应用程序场景,这些仍然是未解决的问题,但文献中已经提出了许多有前途的想法。早期的工作对视频摘要的需求做了各种假设,例如独特性(较少冗余)、多样性和趣味性。一些作品专注于制作与用户意图相关、涉及用户交互的视频摘要。最近的研究更多地关注于数据驱动方法,即从带注释的数据集学习所需的视频摘要。
视频内容的计算建模也是视频摘要的一个重要挑战。从低层次特征开始,应用了各种特征表示,如人脸识别和视觉显著性。近年来,主要采用深度神经网络的特征提取方法。一些应用程序进一步利用辅助信息,如纪录片视频的字幕,体育视频的游戏日志,以及用可穿戴摄像头捕捉的以自我为中心的视频的脑电波。本综述的目的是对视频摘要文献提供一个全面的概述。我们回顾了各种视频摘要方法,并比较了它们的基本概念和假设。我们从提出了视频摘要的开创性概念的早期工作开始,还介绍了利用端到端深度学习的最新数据驱动方法。通过对不同研究的应用场景和使用的技术进行分类,我们旨在帮助研究人员和实践者建立针对不同目的和应用场景的视频摘要系统。我们还回顾了现有的基准和评估协议,并讨论了评估视频摘要的关键挑战,由于难以获得地面真相摘要,这是不直接的。我们概述了以前的工作是如何解决围绕评估的挑战的,并讨论了现有评估协议的优点和缺点。最后,我们讨论这个领域的开放挑战。