「视频片段检索」最新2022研究综述

2022 年 8 月 7 日 专知

最新视频片段检索综述

视频片段检索旨在利用用户给出的自然语言查询语句,在一个长视频中找到最符合语句描述的目标视频片段.视频中包含丰富的视觉、文本、语音信息,如何理解视频中提供的信息,以及查询语句提供的文本信息,并进行跨模态信息的对齐与交互,是视频片段检索任务的核心问题.本文系统梳理了当前视频片段检索领域中的相关工作,将它们分为两大类:基于排序的方法和基于定位的方法. 其中,基于排序的方法又可细分为预设候选片段的方法和有指导地生成候选片段的方法;而基于定位的方法则可分为一次定位的方法和迭代定位的方法.本文还对本领域的数据集和评价指标进行了介绍,并对一些模型在多个常用数据集上的性能进行了总结与整理.此外,本文介绍了本任务的延伸工作,如大规模视频片段检索工作等.最后,本文对视频片段检索未来的发展方向进行了展望.

http://www.jos.org.cn/jos/article/abstract/6707

当下,社交网络与在线视频平台的兴起,致使各种各样的未剪辑视频呈爆炸式增长.对于视频的分析[1]与研究[2]也逐渐成为热点问题.为满足人们对于搜寻长视频中具有特定语义含义片段的需求,视频片段检索任务应运而生.视频片段检索任务,需要根据查询语句,从一个长视频中检索到最符合语句描述的视频片段.具体来说,数据集中,每个被标注的视频片段都与一组注释相关:.在检索时,给定一个查询语句 q,需要在给定的视频 v 中,找到与查询语句 q 最匹配的片段,并返回片段的起止时间点

.本文中出现的符号及含义见表 1.在图 1 的示例中,给定一个完整的视频 v 和一条“a person is eating a sandwich (一个人正在吃三明治)”的查询语句 q,视频片段检索模型需要在视频 v 中找到与 q 最匹配的视频片段,并同时预测该片段的开始点和结束点。

一些真实场景中的视频,如机器人导航[3]、自动驾驶[4]以及监控中的视频[5]等,包含太多无意义的片段,如在监控视频中,异常视频片段出现的时间和频率远远少于正常片段.使用视频片段检索则可以从长时间的视频中找出异常片段,从而达到提升效率的目的.这看起来是一项有挑战性的任务,因为我们不仅需要理解视频的内容、查询语句的语义信息,还需要将不同模态的信息进行精确的匹配,从而达到我们的目的.

视频片段检索任务与动作时序定位任务一脉相承,区别在于动作时序定位没办法满足对于包含对象的具体事件的查询.定位空间语句[6]也是视频片段检索任务的相关任务之一,其可以视为视频片段检索任务的前期探索.定位空间语句将将视频类别限制为监控视频,查询语句限制为位置描述语句.Regneri 等人[7]在 MPIIComposites 数据集[8]的基础上,构建了 TACoS 数据集,这个数据集在视频片段检索领域得到了广泛的应用.2017年,Hendricks 等人[9]和 Gao 等人[10]不约而同地提出了视频片段检索的模型,他们均采取了将视频划分为候选片段,然后从中挑选出最匹配片段的方式.他们不仅简化了问题的复杂度,而且各自贡献了用于视频片段检索任务的数据集 DiDeMo 及 Charades-STA.特别地,Gao 等人[10]提出的模型框架更是成为基础框架之一,其思想被之后的研究工作广泛借鉴,例如,通过引入注意力机制、更细致的跨模态交互等技术模块,使检索性能得到提升.2019年,Escorcia 等人[11]将本任务由单个视频的检索扩展到面向视频库的检索,使视频片段检索任务具有更加广泛的应用可能性,我们将其称为大规模视频片段检索任务,并在第五部分进行简要介绍.

本文的组织结构如下.首先,第一章简短地对视频片段检索任务进行介绍.根据解决问题角度的不同,我们在本文中将现有的视频片段检索方法大致分为基于排序的方法和基于定位的方法两类,并分别在第二部分、第三部分进行介绍.第四部分对当前视频片段检索任务的常用数据集进行了介绍,并对已有模型在一些数据集上的实验结果进行分析与比较.第五部分中,我们对模型的类别、提出时间及优缺点进行总结.第六部分介绍了与此任务有关的探索工作,并对该领域面临的挑战和发展趋势进行了展望.

基于排序的方法

本章首先介绍视频检索片段中的基于排序的方法,这类方法的核心在于对候选片段进行排序.这种解决方案由于实施简单,易于解释和理解,成为了视频片段检索领域的主流方案之一.具体来说,根据产生候选片段的过程不同,可进一步将基于排序的方法细分为预设候选片段的方法和有指导地生成候选片段的方法.前者是人为地、穷举地切分视频为候选片段,然后按照与查询语句的相关程度对它们进行排序.后者则首先利用模型排除掉大多数无关的候选片段,然后再对生成的候选片段排序.从模型的输入来看,预设候选片段的方法会直接将预先切分好的视频片段送入模型,而有指导地生成候选片段的方法则以视频为模型的输入.图 2展示了两者在思路上的区别.

预设候选片段的方法

预设候选片段的方法需要在无查询语句信息的情况下,对视频预先地进行划分,生成可能的候选片段集合.这种方法借鉴了多示例学习的思想,在训练阶段,每个候选片段可以被看作是一个带有标签的示例.划分预设的候选视频片段的方法可以分为以 Gao 等人[10]提出的模型为代表的方法和以 Hendricks 等人[9]提出的模型为代表的方法.第一类方法,以跨模态时序回归定位器(Cross-modal Temporal Regression Localizer, CTRL)[10]为代表,以有 80%重叠部分的不同尺度滑动窗口为基准,对视频进行划分;第二类方法,以时刻上下文网络(MomentContext Network, MCN)[9]为代表,对视频直接进行相同尺度的切分.这两类方法均采取了先提取多个候选片段再多中选优的思路.具体来说,这两类方法最主要的区别是,相对于 MCN模型,CTRL模型构建的滑动窗口片段是层级化的,且片段之间有大面积重叠,如图 2 所示.

有指导地生成候选片段的方法

有指导地生成候选片段,即以查询语句或视频本身为指导,探索视频中的哪个片段更有可能与查询语句相关,从而确定候选片段.此类论文大多是先对整个视频进行处理,得到视频级别的视觉特征,在与查询语句进行模态间融合之后,根据结果产生候选片段,最后对每个候选片段计算分数.由于是提取视频级别的特征,这类方式能够避免对重复的帧进行多次处理和计算.根据生成候选片段的阶段不同,此类模型可以分为三类.第一类是在没有查询语句作为指导的情况下,直接利用视觉信息生成候选片段.第二类是在对查询语句进行。编码之后,利用文本信息给出的指导生成候选片段.第三类则是在对视觉信息和文本信息进行跨模态融合之后,生成候选片段.一般来讲,候选片段的生成时间越晚,计算资源的浪费就越少,但也更易丢失有用信息.此外,在有指导地生成候选片段的方法中,弱监督学习和强化学习多次被使用.

基于定位的方法

不同于第二部分介绍的基于排序的一类方法,基于定位的这类方法不以候选视频片段为处理单位,而是以整个视频为处理单位,直接以片段时间点作为预测目标.因此,相对于有指导地生成候选片段的排序方法而言,基于定位的方法能够较为明显地减少计算成本,几乎完全消除对于视频的重复处理和计算.考虑到定位的方式又根据是否经过迭代,本章将要介绍的基于定位的方法可以进一步划分,分别是一次定位的方法和迭代定位的方法.前者直接输出目标预测节点,后者则会在生成预测节点后对节点进行迭代地调整.两者在思路上的区别展示在图 5 中.

4 数据集与实验

可以用于视频片段检索领域的数据集包括 Regneri 等人[7]提出的 TACoS,Hendricks等人 [9]提出的 DiDeMo,Gao 等人[10]在 Charades 数据集[78]的基础上提出的 Charades-STA,Krishna 等人[79]提出的 ActivityNetCaptions,Hendricks 等人[80]在 DiDeMo 数据集的基础上进行调整,得到的 TEMPO-TL及 TEMPO-HL两个数据集,以及 Lei 等人[55]提出的 TVR 数据集.这些数据集的基本信息如表 2 所示:

评价度量

视频片段检索任务中一些常见的评价指标如下.通常来说,这些指标的数值越大,代表方法的性能越好.

(1) R(n,m),也可被写为“R@n,IoU=m”,表示的是在返回的前 n 个结果中,交并比指标(IoU)大于 m(∈(0,1])的结果(至少一个)占总体 n 个返回结果的比例.例如,在某次测试中,共有 1~8 号共 8个样本,其对应返回的 IoU值分别为 0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,若将 m 设置为 0.7,则满足条件的为 7~8共 2个样本,那么 R(n,m)即 R(8,0.7)的结果应为 2/8=0.25.因为大部分基于定位的方法对于每个测试样例仅会返回一个结果,所以只会出现 R(1,m)的情形.

(2) mIoU,也称为平均 IoU,表示的是所有测试样例的第一个返回结果对应 IoU的平均值.

(3) Rank@n,也写作 Rank-n accuracy,表示的是最匹配结果出现在前 n 个结果中的百分比,一般 n取 1或 5.等同于 R(n,1)指标.

(4) Acc@0.5,适用于定位任务,表示的是模型产生的返回结果(一个查询语句仅返回一个结果)与真实标签间的 IoU 高于 0.5 的比例,等同于 R(1,0.5)指标.

模型总结

在这一部分,我们将对前述的模型进行简要总结,并提出当前方法可能的改进方向及发展趋势. 表 7 将前述模型的所属类别及提出时间进行了汇总.表 8 对各类方法的主要思想及特点进行了对比总结.

按照时间顺序梳理,2017 年,CTRL 模型和 MCN 模型同时提出视频片段检索任务,并给出了有效的解决方案,让研究者认识到这个任务的价值和挑战.2018 年,研究者开始关注细粒度的视频内容和文本含义的理解,尝试使用注意力机制解决问题[14][22].2019 年,解决问题的思路开始多元化,大家开始尝试跳出预设候选片段的思路,使用有指导地生成候选片段的思路、一次定位的思路和迭代定位的思路.2020年,研究者对此任务的研究热情高涨,出现了大量研究工作[40][61][74].2021 年,受相关领域的影响,研究者开始探索如何更好地理解视频和文本表达的意义[54][32] . 结合表 7 和表 8,我们可以得到以下发现:

(1) 从出现的时间上可以看到,领域内先是提出了预设候选片段的思路,然后给出有指导地生成候选片段的思路,再到后来的基于定位的思路.对模型效率的需求在不断提升,为了达到这一目的,越来越多的方法选择消除冗余计算.这也会是未来领域内研究的一个重要方向 .

(2) 基于排序的方法中,预设候选片段的方法的发展已经趋于成熟 .我们发现,基于这种方法的创新主要集中于加入注意力机制(我们将图模型看作是建模一种更为复杂的注意力关系)、挖掘辅助概念表示和从模型优化的角度构造损失函数这三类.其中又以加入注意力机制的创新居多.因为预设候选片段的方法,与其说是提供了一种思路,不如说是提出了一个框架,在一个固定的框架上可以做的创新终究是有限的.

(3) 相对于预设候选片段的方法,有指导地生成候选片段的方法和基于定位的方法需要额外克服一个弊端 ,就是在拟合过程中,模型会慢慢偏向于学习数据集偏差而非视频内容.这一现象由 Yang等人[54]发现并做了一定探讨,为今后的研究者提供了一个新的思考方向.而大部分现有方法忽视了数据本身偏差的影响,进而导致模型更多地学到数据集中时序动作位置的偏差,从而影响了模型的训练和预测.预设候选片段的方法,由于会均匀地选取候选片段,因此更小概率会被数据分布干扰.

(4) 近期的文章中,不论是对任务中因果关系的讨论,还是使用无监督学习进行视频片段检索任务 ,研究重点开始更多关注研究对视频内容和查询语句真正的语义理解.之前的模型,大多也是从将本任务看作是认知任务的角度出发,但模型的拟合过多依赖于数据集本身,且模型的泛化性和鲁棒性较差,因此更像是将视频片段检索任务看作是一个感知任务来完成的.但此任务的本意则应该是多模态语义理解的认知任务.这些文章的出现也为研究者们提供了新的研究思路和方向.

探索与展望

虽然视频片段检索任务是近年来刚被提出的研究领域,但该问题受到了较为广泛的关注,有着较好的发展.本节,将对该领域潜在的发展进行一定的预测.

端到端的模型架构

视频片段检索属于视频理解领域的边界敏感任务,其他类似的边界敏感任务还包括动作时序定位、逐步定位等. Xu 等人[87]认为这一类任务有一个共同的问题,即视频视觉特征的提取与后续的定位过程是割裂开来的,视觉特征的表示对于定位结果有很大影响,但定位结果却无法作为反馈优化视觉特征的提取过程,于是作者将边界信息融入视觉特征的提取过程,使得提取的特征更加适用于视频片段检索这类边界敏感任务.Lei等人[88]也针对视频片段检索任务尝试使用端到端的设计思路,通过设置有效的预训练和微调规则,使端到端训练变得可行,并达到了很好的效果.

大规模视频片段检索任务

传统的视频片段检索任务是在单一视频中定位最匹配查询语句的片段,考虑到一些真实应用需要针对一条查询语句从多个视频中进行查找,因此出现了一种新的视频片段检索范式.该范式被称为大规模视频片段检索任务,其在大规模视频集合中查找与查询语句最相关的视频片段.近期已有一些研究工作对大规模视频片段检索任务进行了探索.

Escorcia 等人[11]率先提出了解决此任务的方法,其设计的模型沿用了 MCN模型[9]中的相似性比较思路,将多个视频划分为等长的视频片段并作为输入,此外还引入了重排序检索模块,使得检索结果能更加细致地匹配查询语句.分层的时刻对齐网络(Hierarchical Moment Alignment Network, HMAN)[89]也使用了这种思路,并在视觉特征的提取阶段,使用多层卷积网络,从而产生对应不同长度片段的视觉特征,这一思路无论在单视频片段检索还是大规模视频片段检索中均能取得很好的效果.分层的多模态编码器(HierArchical Multi-Modal EncodeR,HAMMER)模型[90]将大规模视频检索任务拆分成两个子任务,首先从大规模视频中检索与查询语句相关的视频,这一步称为视频检索,然后对得分高的视频进行细致的视频片段检索,这一步称为片段定位,且构建了分层的跨模态编码器对视觉信息进行帧级别、片段级别和视频级别三个不同粒度的编码.Lei 等人[55]构建了一个由影视剧组成的数据集 TVR,并设计了一种名为 XML 的模型,该模型将视觉特征和视频字幕作为共同的输入,获得了很好的大规模视频片段检索的效果.XML 模型提供了一种新颖的解决大规模视频片段检索任务的思路,即视频的多模态信息和查询语句分别进行特征生成,通过生成的特征间的交互,共同完成视频检索和片段定位任务.鉴于该思路的有效性,一些后续研究也沿用了 XML 的思路,如 MXML模型[56],ReLoCLNet 模型[57]等.

认知模型

当前大部分的视频片段检索模型往往过分依赖于训练数据,通过对数据集特性的学习达到良好的检索效果,而缺少对视觉和文本模态的真正的语义认知.Yang 等人[54]的实验表明,尽管当前现有的模型可以获得有效的检索结果,但是取得好结果的原因有一部分是由于模型对数据集偏差的拟合,而非对视频内容的真正理解.Yang 等人通过将因果关系引入视频片段检索任务,深入挖掘任务中各元素的因果联系,为模型赋予了更好的鲁棒性和泛化性,最终让模型具备了举一反三的潜力.针对这个问题,Yuan 等人[91]也进行了研究,并对数据集和模型评价指标进行了改进.具体来说,针对数据集存在的标记偏置,其重新对 Charades-STA数据集和 ActivityNetCaptions 数据集进行了切分.并在评价指标中加入了折扣参数,作为对某些特定场景下,虚高的 IoU值的惩罚.

专知便捷查看