深度神经网络已经展示了其在处理各种类型数据为包含关键信息的紧凑表征方面的卓越能力,这些信息对于理解数据至关重要。随着强大计算设备的可用性,模型大小和用于训练模型的数据量持续增长。因此,基础模型的概念最近已经浮现。由于大型模型和用于训练的广泛数据范围,人们认为基础模型有强大的潜力,能为人工智能研究带来重大变革。在这篇论文中,我们专注于视频基础模型。具体来说,我们希望探索从视频中学习深度表征的方法,这是与视频基础模型相关的最重要的主题之一。我们确定了三个潜在阻碍视频理解范式中基础模型进步的挑战:(一)当前用于处理视频的模型结构在从视频中提取特征方面效率不高。(二)从未标注数据中学习视频表征的框架大多继承自图像,它们未能利用帧之间的运动,对于从未裁剪视频中学习表征来说是次优的。(三)预训练视频模型的适应性仅限于时空理解任务,而许多空间理解任务可以通过结合连续帧之间的时间上下文而受益。针对上述挑战,我们提供了解决方案的探索。在模型结构方面,我们首先介绍了TAdaConv,它在不增加太多计算开销的情况下为图像模型赋予了时间建模能力。然后,我们进一步优化了基于Transformer的模型的效率,通过掩盖输入视频的相当比例,减轻了对视频冗余部分的计算负担。在从未标注数据中学习视频表征方面,我们探索了从图像生成的伪运动中学习,以增强模型对视频中像素运动的理解。对于基于对比学习的框架,我们提出了一种参数化裁剪策略,用于在训练期间自适应控制增强强度。为了从未裁剪视频中学习,我们在标准对比学习框架的基础上进一步引入了主题一致性学习,这被证明在利用网络上未筛选的视频数据方面是有效的。在泛化到空间理解任务方面,我们将TAdaConv扩展到视觉对象跟踪的应用。
我们对世界的观察由无数的、无休止的视觉刺激组成。因此,对机器来说,理解我们的世界的关键能力之一是理解视频。自从几十年前进入深度学习时代[160]以来,视频理解领域已经取得了巨大的进展。处理视频的最大模型已从1000万参数[322]增长到超过10亿[319],用于训练视频模型的数据也从几千[282, 162]扩展到超过50万[32],如果考虑到未标注数据,这个数字进一步扩大到超过1000万[8]。为了更全面地理解视频,涌现出了各种任务,如动作识别[149, 150]、动作检测[24, 105]、视频检索[361, 267]、异常检测[285]和对象跟踪[85, 348, 228]等。
在早期,各种任务的方法是独立开发的。尽管处理视频的操作相似,但不同任务中的视频模型结构是为每个任务专门设计的,而且视频模型都是从随机初始化开始训练的。随着发现在预训练期间学习的特征表示可以将有用信息转移到下游任务[102],动作识别的视频模型开始利用预训练的图像模型(例如,在ImageNet[69]上预训练的ResNet[119])作为初始化[33],其他下游任务[196, 397, 245]的解决方案开始利用在Kinetics-400[150]等大规模标注数据集上预训练的视频模型的特征表示。这导致了各种视频应用框架的融合,遵循一般的预训练和微调范式。通常,视频模型首先通过监督或自监着学习进行预训练。借助预训练的表示,下游任务中的应用可以通过向视频骨架添加特定于任务的模块来完成,这实际上是对视频模型的表示进行后处理。该过程如图1.1所示。因此,在这样的框架中,视频表征的质量在下游任务的性能中起着关键作用。 尽管预训练的视频模型显著加速了训练并提高了下游视频应用的性能,如动作识别[134, 255, 259]、动作定位[196, 403]、视频定位[74, 75, 397]等,但预训练模型仍然存在几个缺点。在各种下游任务中,我们看到要获得像样的性能需要新的架构[75, 135]或训练技术[74]。这显著阻碍了视频模型在各种现实世界应用中的使用。
最近,基础模型的出现[20]为这个问题提供了一个有希望的解决方案。基础模型的概念起源于自然语言处理(NLP),本质上指的是具有大量参数并在大量数据上训练的模型。例如,著名的NLP模型GPT-3[21]拥有1750亿参数,并使用3000亿语言标记进行训练。尽管基础模型的技术并不是全新的,但其规模和由此产生的高度容量和泛化能力已经为各种现实世界应用打开了新的可能性。在大量未标注数据上预训练如此大的模型之后,该模型能够解决各种任务,而无需专门针对这些任务进行训练。因此,有了视频基础模型,我们可以处理各种视频应用,而无需针对不同的下游任务重新设计模型架构和训练技术。
然而,与NLP相比,视觉基础模型仍处于早期阶段[20]。大多数现有的用于视觉应用的基础模型仍然专注于传统的计算机视觉任务[262, 68, 332],如图像分类[69]和语义分割[200, 51],而更广泛的能力,如常识推理,尚待开发。在视频基础模型方面,它们通常遵循基于图像的模型的管道[319, 368],将二维操作扩展到三维操作以处理时空信息,并使用类似的替代任务进行模型的预训练。 由于基础模型范式是可扩展模型结构、无监督表征学习策略和各种任务统一的发展结果,我们在进一步挖掘视频基础模型潜力之前,仍面临着以下挑战:
(一)模型架构本质上决定了如何从输入数据生成表征。从这个角度看,基础模型的最新发展主要是由Transformer架构[307]的发明推动的,该架构有效地利用了GPU的并行性,并且对输入内容具有很高的适应性。自2017年诞生以来,已经充分验证了Transformer架构是处理一维文本输入[307, 151, 263]的最合适方式之一。其在2020年扩展到视觉应用[79]也促进了对这种结构在理解复杂空间语义方面适用性的全面调查和评估。然而,它在视频理解方面的适用性,特别是在理解复杂运动方面,尚待进一步探索。就数据结构而言,由于视频通常由每秒24到60张图像组成,每个视频需要处理的像素数量大大增加,这本身就带来了巨大的挑战,因为计算量与帧数成线性增长。此外,正如我们自己的视觉系统所示[70, 92, 136, 211],时间信息的处理方式与空间信号本质上不同,而大多数现有方法通过对待空间维度和时间维度对称地来融入理解时间动态的能力[3, 208, 13]。 (二)预训练的替代任务定义了在一堆未标注数据上对预定义模型架构的学习过程。根据预训练阶段使用的数据,替代任务可以分为单模态[41, 118, 37, 263, 21],仅依赖于视觉信息,和多模态[262, 379, 334, 174],利用视觉数据和其他模态,如文本或音频。尽管多模态预训练模型已经展示了强大的泛化能力和执行各种任务的能力,但[385]中表明,仅从图像中学习的表示更适合于模态内理解。大多数现有的学习视频表征的方法都遵循与图像范式中的对应方法类似的流程[253, 240, 146],忽略了视频中运动的特殊性。此外,大多数当前的表征学习方法仅限于从手动策划的数据集中学习,这些数据集包含特定的动作类别,并且在注释过程中可能存在人为偏见。如何从网络上更长、更复杂的未策划视频中学习,目前尚未知晓。
(三)泛化到更多的视觉任务。目前,大多数视频模型结构和预训练任务都是专门为时空理解任务设计的,例如动作理解和时刻检索,而基于视频的空间理解任务的发展,如单一[85]或多对象跟踪[228]和视频实例分割[370],通常与视频基础模型的发展平行进行。视频基础模型的研究如何帮助这些基于视频的空间理解任务更好地利用视频中嵌入的时间信息,尚待探索。