【TPAMI2024】结构化时空对齐视频-语言表示

论文题目：Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

论文链接：https://arxiv.org/abs/2406.19255

论文摘要：尽管大规模视频-语言模型（VLMs）的预训练在各种下游视频-语言任务中显示出了巨大的潜力，但现有的VLMs仍然存在一些常见限制，例如粗糙的跨模态对齐、时间动态建模不足、视频-语言视图的脱节。在本工作中，本文提出了一种细粒度结构化时空对齐学习方法（即Finsta），以增强VLMs。首先，作者用细粒度的场景图（SG）结构来表示输入的文本和视频，两者进一步统一到一个整体的场景图（HSG）中，以桥接两种模态。然后，构建了一个基于SG的框架，其中文本SG（TSG）通过图Transformer编码，而视频动态SG（DSG）和HSG则通过一种新颖的循环图Transformer来建模空间和时间特征传播。此外，作者还设计了一种时空高斯差分图Transformer（STGD-GTrm），以加强对对象在空间和时间维度上变化的感知。接下来，基于TSG和DSG的细粒度结构特征，作者分别执行以对象为中心的空间对齐和以谓词为中心的时间对齐，增强了视频-语言在空间性和时间性上的定位。作者将其方法设计为一个即插即用系统，可以集成到现有的训练有素的VLMs中，以进一步增强表示，无需从头开始训练或依赖于下游应用中的SG注释。在标准和长视频场景的12个数据集上的6个代表性VL建模任务中，Finsta持续改进了现有的13个表现强劲的VLMs，并在微调和零样本设置中显著刷新了当前的最佳任务性能。

01 背景和动机

近年来，大语言模型（LLM）在多模态数据（例如文本、图像和视频）上的预训练显示出了引导人类级智能的惊人潜力。在这些模型中，视频-语言模型（VLM）预训练受到了越来越多的研究关注。与主要关注个体视觉语义理解的视觉-文本建模相比，视频理解超越了静态图像，要求同时理解空间语义和时间动态，这是由于视频随时间连续帧的本质。为了学习有效的VLMs，已经做出了广泛的努力，并促进了一系列下游视频-语言（VL）任务。尽管取得了有希望的进展，现有的VLMs仍然可能受到视频-文本模态异质性所固有的某些共同但关键问题的影响。因此，下游VL任务的性能可能仍然受到阻碍，无法实现最优。

首先，现有的VLMs通常执行粗糙的跨模态对齐。先前的工作广泛地在整体视频和文本表示之间进行对齐 [12]、[13]，或提取帧块 [14]、[15]。然而，这两种模态在携带信息上是不平等的，例如，文本是有限的和简洁的，而视频包含密集的多余内容，这不可避免地导致了在使用粗粒度方式时的低效对齐。例如，在视频描述任务中，这可能导致生成的字幕缺乏足够的细节。如图 1 所示，视频和文本之间的对应关系实际上可以是细粒度的，即感兴趣对象的核心指代。

第二，现有的研究通常对视频的时间动态建模不足。语言使用抽象词汇（例如，谓词和副词修饰语）来表达复杂动作；而视频则通过连续帧中特定场景的动态变化来描述事件。例如，在图 1 中，文本动作 ‘sit down on’ 是通过视频中该男子对象的跟踪过程来描绘的。这表明需要一个精细的运动级对齐来建模视频-文本数据的时间动态对应关系。不幸的是，现有研究大多采取了直接的视频时间性建模方式，即通过整体帧上的时间注意力或池化 [16]、[17]。因此，例如，在需要建模时间动态的视频时间定位任务中，VLMs在将文本内容与相应的视频时间内容准确匹配方面大多失败。

最后，现有的VLMs通常忽略了视频和语言视图之间的差异和互补信息。虽然两种模态带有共享特征，但也可以有丰富的差异化信息。直观上，文本提供抽象表达（例如，情感和感觉），而视频是视觉感知信号（例如，颜色和外观）。这种区别可以为整体多模态语义理解起到互补作用。然而，现有工作将重点完全放在VL对齐上，同时将未对齐的特征部分视为噪声，并在没有建模的情况下积极丢弃它们。在推理密集型场景中，例如视频问答，VLMs无法充分利用两种模态共享和互补的信息进行深入推理。

作者认为，细粒度结构化表示对于全面理解VL至关重要，正如我们人类在进行VL推理之前总是先把握潜在的语义结构。在这项工作中，我们考虑使用场景图（SG）表示来表示输入的视频和文本。如图 1 所示，通过使用结构化模态不可知表示，SG能够使VL学习进行细粒度控制。基于SG表示，我们进一步进行了一些定制，以用于我们的目的。首先，我们略微修改了现有的文本SG（TSG）定义 [20]，通过添加谓词属性节点来进一步支持动作的副词修饰语（例如，‘quickly’、‘hastily’），以便增强TSG表达动作的能力。其次，对于视频的动态SG（DSG）[21]，我们通过在不同DSG帧之间创建跨帧的时间核心引用边来连接整个SG序列。最后，我们通过创建跨模态核心引用边来统一TSG和DSG，从而得到视频和语言的整体HSG。通过HSG（参见图 2），我们能够确保多模态语义的全面视图。

基于TSG、DSG和HSG，我们随后提出了一个细粒度结构化时空对齐学习（即Finsta）框架。我们的框架采用了双流求和架构，如图 3 所示。我们首先采用图Transformer（GTrm）[22]模型对TSG进行高度并行的图编码。基于GTrm，我们设计了一种新颖的循环图Transformer（R-GTrm）来对DSG和HSG进行空间和时间特征传播建模。我们进一步提出了一种时空高斯差分图Transformer（STGD-GTrm），以加强对对象在空间和时间维度上变化的感知。接下来，基于TSG和DSG的细粒度结构特征，我们分别执行以对象为中心的空间对齐和以谓词为中心的时间对齐，从而在空间性和时间性上增强视频-语言定位。我们将我们的方法设计为一个即插即用系统，可以集成到现有的训练有素的VLMs中，以进一步增强表示，无需从头开始训练或依赖于下游应用中的SG注释。

在标准和长视频场景的12个数据集上的6个代表性视频-语言建模任务中，Finsta框架持续改进了现有的10个表现强劲的VLMs和3个最近的长视频语言模型（LVLMs），并在微调和零样本设置中显著推动了新的最先进的VL端任务。通过进一步分析，我们验证了所提出的方法有效地解决了上述VL学习瓶颈，包括粗粒度的跨模态对齐、时间动态建模不足和VL协作不足。我们还展示了实证分析，量化了Finsta中每个模块的贡献，并探索了一系列潜在因素的影响。最后，我们讨论了系统的效率，并提供了一系列案例研究，直接洞察Finsta的进步。

这项工作的贡献如下： * 这是第一个基于场景图表示，全面增强视频-语言表示学习，通过结构化细粒度时空对齐学习的工作。 * 基于GTrm，我们设计了一种新颖的R-GTrm模型，用于视频的空间-时间特征编码。我们进一步提出了STGD-GTrm，以加强对物体在空间和时间维度上变化的感知，区分移动或静止的节点。 * 提出了一种新颖的高阶以对象为中心的空间对比和高阶以谓词为中心的时间对比学习策略，实现细粒度的时空跨模态对齐。 * 本文方法在广泛的下游VL理解任务中，经验性地提升了当前最先进的VLMs。此外，我们的框架被设计为一个即插即用模块，可以轻松应用于许多现有的VLMs。

02 场景图构建

2.1 动态场景图（DSG）

DSG将视频描述为时间上连续的SGs。通常，每个单独的视觉SG由三种类型的节点组成，包括对象、属性和关系节点。如图2所示，视觉对象节点通过某些关系连接，并且对象附加了它们的属性。原始DSG为视频中的每一帧维护一个视觉SG，而视频帧通常在内容上是冗余的，导致巨大的计算成本。因此，我们首先对视频进行关键帧提取，以便有效地压缩密集冗余的视频帧。我们使用基于聚类的方法来提取关键帧，这些关键帧在适当的采样率下保持了显著事件内容。我们记录原始视频中得到的帧的原始时间戳，这是关键的时间信息。然后，这些帧被送入解析器以生成每个关键帧的每个静态视觉SG。我们遵循最常见的实践，使用FasterRCNN作为对象检测器来获取所有对象节点，其中对于每个节点，我们使用1）对象的神经表示，2）在Visual Genome（VG）数据集中的对象类别标签，3）对象的边界框（图像中的2D坐标，即）。然后我们使用MOTIFS作为关系分类器来获取关系边以及关系标签。我们接着使用属性分类器来获取属性节点。所有节点（即和）都通过边连接。由于DSG中的每个单独SG在图序列中是分开的，我们考虑将它们连接为一个整体。我们创建了一种跨不同SG帧的对象的时间核心引用边，即本质上是一个对象跟踪过程。我们通过测量两个具有相同对象标签的对象的边界框（和）的交集比率（IoU）来实现.

2.2 文本场景图（TSG）

TSG和DSG之间的关键区别在于TSG只有一个单一的图帧。与视觉SG类似，TSG也包括三种类型的节点，包括对象、属性和关系节点。对象是场景中的文本实体，每个对象都有附属的属性来描述其属性。注意，视觉SG中的对象节点是图像，而LSG中的对象节点是文本标记，这些也是那些对象的类别标签。因此，我们只维护节点的标记/标签。不同类型的节点（即和）通过边连接。在这里，关系可以是持久的相关性（例如，“在...里面”，“带有”和“紧挨着”）或一些动态谓词词（例如，“喝”，“坐在...上”和“持有”）。然而，原始TSG定义未能支持动态谓词的状语修饰语。例如，在图1中的句子中，SG不包括“喝”的“快速”和“坐在...上”的“匆忙”。我们注意到这导致了重要信息的丢失，因为在VL场景中，视频可以通过其时间特征自然地描述这种动作状态。因此，我们引入了一种谓词的动态属性节点，即状语修饰语。我们在图2中说明了改装后的TSG。在实践中，我们可以通过现成的TSG解析器[20]来获取文本的TSG。我们首先将句子转换为依赖树[48]，然后根据[20]中定义的规则将其转换为基于图的表示。为了使TSG支持动态谓词的状语修饰语，我们改装了现有的TSG解析器，并在依赖树中保留了状语词或短语，以便TSG增加了一种谓词的属性节点。

2.3 全局场景图（HSG）

给定一对文本-视频，我们期望它们的语义内容能够很好地匹配。然而，配对的文本和视频之间必须存在差异。为了充分利用两种模态的不同部分信息，并确保多模态语义的全面视图，我们考虑了这两种模态的组合视图。技术上，有了上述配对的TSG和DSG，我们可以通过创建跨模态核心引用边来统一它们，通过这些边，TSG中的对象链接到DSG中的相应对象。具体来说，我们通过CLIP编码器[34]测量任何一对文本和图像对象从TSG和DSG之间的语义相似性，分别测量文本标签与视觉表示和视觉对象标签。

03 Finsta框架

3.1 图Transformer（GTrm）的空间编码

对于TSG GT，我们只需要处理场景的细粒度空间性。因此，我们考虑采用图变换器（GTrm）[22]来模拟TSG。与一般图神经网络[38]、[39]相比，GTrm在图拓扑建模和变换器架构[40]的高并行计算方面都有所进步。GTrm有L个堆叠层，其中第l层的节点vi的表示hl_i更新如下：

初始节点表示h0_i是TSG节点的文本标签嵌入。我们将所有hl+1_i汇总到Hl+1中。对于图边表示，与TSG的节点传播有类似的过程：

3.2 循环图Transformer（R-GTrm）的时空编码

与单帧TSG相比，DSG的特点是有时间动态性。因此，我们设计了一种新颖的递归图变换器（R-GTrm），我们从递归网络[44]中汲取了主要灵感。如图3(b)所示，在GTrm传播的基础上，R-GTrm通过DSG中的时间核心引用边对节点进行建模，本质上是对时间上的对象进行跟踪。这里具体公式请参考论文。

3.3 时空高斯差分图变换器（STGD-GTrm）

上述R-GTrm仍然无法充分感知对象在空间位置上的变化。一个重要的后果是，无法充分建模移动和静止对象之间的区别。我们强调，建模视频动态的一个关键步骤是区分运动中的对象和静止对象（即前景与背景）。为此，基于R-GTrm，我们进一步设计了一种时空高斯差分图变换器（STGD-GTrm）。关键思想是使图变换器能够感知对象在空间和时间维度上的变化。为了说明这一点，我们在图4中绘制了任意对象在两个连续帧（或关键帧）之间的变化强度（即分布密度，由以下分布核描述）。

我们观察到，这种时空变化可能本质上遵循高斯分布，其中移动更明显的对象往往具有更大和更尖锐的能量，而移动缓慢的静止对象则具有较低的强度。因此，我们提出用高斯分布来建模DSG或HSG的图节点沿其跟踪器从时间核心引用边的时空差异。

04 视频-语言表示学习

有了通过Finsta框架学习的细粒度结构特征，我们现在执行表示学习，通过此过程增强现有主机VLM的VL表示。以下，我们首先详细说明跨模态对齐学习。然后我们介绍如何将我们的Finsta应用于现有的VLM。

4.1 细粒度结构化时空对齐学习

我们将VL对齐学习分为空间性和时间性视角，前者侧重于细粒度的静态对象级语义匹配，而后者集中在细粒度的动态动作级语义匹配。这两个学习过程在DSG和TSG编码模块之间进行。1我们还注意到，尽管学习仅在DSG和TSG编码器之间发生，但通过后续的特征注入和初始化，学到的特征将进一步传播到HSG编码器中，具体参见论文。

1)****以对象为中心的高阶空间对比学习（OSC）。我们的想法是鼓励TSG中的对象节点在DSG中找到它们正确的对应物。我们采用对比学习[49]来拉近语义相同的节点对，并推开不同的。细粒度的VL建模可以在TSG和DSG中的单个对象上进行。然而，我们考虑一种更有信息量的方式；我们执行以任何对象为中心的高阶区域的匹配。直观地说，当对象对及其修改上下文（即特定属性甚至关系邻接对象）都匹配时，文本对象和视觉对象应该被视为更相似。补充材料第1节说明了高阶邻域建模机制。对于TSG对象，我们遍历其n阶邻居。然后我们通过池化操作获得区域表示。同样，对于DSG对象，我们也获得n阶邻居表示。然后我们测量这两个区域表示之间的二分图相似性。

2) 以谓词为中心的高阶时间对比学习（PTC）。仅建模空间性是不够的，这激发了以谓词为导向的动态语义。以谓词为中心的时间对齐与OSC学习有类似的公式。目标是找到TSG中文本谓词与DSG中动态动作的对应关系。与OSC学习略有不同，我们采取以谓词为中心的时间对比学习。我们的目标是TSG中的动态关系节点，并以谓词节点为中心。同样，我们首先找到其n阶邻居空间区域在TSG内。我们使用相同的方法找到DSG中每个谓词节点的n阶邻居空间区域，并进一步将DSG序列与时间间隔切片，即从DSG序列的第帧开始，到帧结束。我们取区域特征的池化表示作为DSG的候选对应物。此后，我们执行PTC学习。

4.2 表征迁移学习

通过上述对齐学习，文本和视频的TSG和DSG表示可以很好地匹配，并有望更好地促进下游VL任务。然而，直接将Finsta作为VLM使用可能会有问题，因为我们的系统在很大程度上依赖于SG注释，而为所有潜在的传入数据解析SG标签将不可避免地引入噪声，导致低效的应用。同时，从头开始训练一个VLM与Finsta将非常耗费资源（需要利用100m VL对），并且解析如此大量的SG注释是不切实际的。为此，我们考虑将Finsta设计为一个即插即用模块，并将对齐良好的VL特征表示注入到主机VLM中。基于任何具有类似双流总和架构的现有VLM，通过预热启动，我们可以更有效地进行对齐。

技术上，我们使用知识蒸馏（KD）技术将Finsta注册到主机VLM，如图6所示。在Finsta传播消息之前，我们首先导入主机VLM的文本编码器、视频编码器和多模态编码器的第一层表示，分别作为各种SG建模的初始特征表示，这些被视为对齐良好的视觉-语言嵌入。我们用、和分别表示主机VLM中的文本、视频和多模态编码器的表示。具体来说，主机VLM的文本/视频/多模态表示的第一层表示被复制到Finsta作为输入TSG/VSG/HSG的节点嵌入的初始输入特征表示。通过将对齐良好的VL特征表示注入Finsta，我们可以预热主机VLM的后续训练。

之后，我们通过KD将Finsta的特征蒸馏到主机VLM中。Finsta编码器在SG数据上执行传播，并最终获得最后一层的对齐良好的时空VL特征。接下来，我们通过KD将它们从Finsta蒸馏到主机VLM中。使得主机VLM编码特征学习与Finsta中的特征相似，即细粒度时空对齐的特征。

注意：我们期望主机VLM具有与Finsta相同的架构（即文本编码器、视频编码器和跨模态编码器）以实现即插即用功能。确切相同的架构，虽然非常必要，但不是严格要求。虽然'文本-视频-多模态'编码架构已成为大多数现有VLMs的标准范式[42]，但也有许多VLMs没有严格的双流总和架构[10]、[14]。即使主机VLM中缺少三个编码器中的任何一个，Finsta仍然可以工作，只需不将Finsta特征蒸馏到主机VLM中缺失的编码器。但在这种情况下，Finsta的功效将在一定程度上受到影响，我们将在实验部分进行分析。

05 实验和分析

5.1 主实验结果

5.1.1 视频到文本转换任务的结果

视频动作识别。表1显示了K400和SSV2数据集的整体性能，其中Finsta增强的VLMs也与现有的强性能系统进行比较。可以看到，InternVideo已经成为该任务的现有最新系统。然而，我们的Finsta进一步帮助InternVideo在两个数据集上分别提高了2.6%和3.3%的Top-1准确率，使Finsta-InternVideo成为两个基准上的当前最新状态。总体而言，所有不同的VLMs都从Finsta中获得了不同程度的性能提升。特别是，HDVILA的平均准确率提高了4%以上。

视频描述。表2显示了三个基准的结果。首先，我们可以看到所有不同的VLMs都从Finsta中获得了明显的改进。有了Finsta，两个数据集上的最新系统性能进一步提高。这验证了我们方法在增强视频到语言类型任务理解方面的有效性。同样，除了具有双流总和VLMs外，还包括了只有一个共享多模态编码器的All-in-one VLM。有趣的是，与其他组合相比，Finsta-All-in-one获得了最小的改进。这主要是因为缺少两个关键模块：文本编码器和视频编码器。

5.1.2 文本到视频转换任务的结果

视频-文本检索。我们使用总共9个VLMs作为主干，其中我们进一步与5个强性能基线进行比较。我们在表3中展示了总体结果。可以看到，我们的Finsta仍然一致地改进了所有VLMs，并且有明显的改进。其中，Finsta-Video-LLaMA和Finsta-Video-LLaVA已成为所有数据集上的最新状态。特别是，我们发现HDVILA从Finsta中受益最多，平均召回率提高了10.3%。同样，没有跨模态编码器的VideoCLIP和CLIP4Clip VLMs与其余具有完整双流总和架构的VLMs相比，改进有限。 **

5.1.3 视频-文本协同任务的结果

视频问答。表4显示了多项选择QA和开放式QA的结果。与上述任务类似，所有不同的主干VLMs都通过我们的Finsta系统得到了改进。其中，Finsta-Video-LLaMA和Finsta-Video-LLaVA在所有数据集上的所有QA设置中都创下了新的最高记录。最显著的是，Finsta在MSVD-QA数据上将原始Video-LLaVA的准确率提高了6.8%。同样，对于All-in-one VLM，改进最为保守。 **

5.1.4 长视频-文本任务的结果

视频-段落检索。如表5所示，Finsta帮助所有不同的VLMs实现了不同程度的改进，其中两个观察点。首先，我们可以看到LFVILA (L-Vid)的性能比LFVILA (S-Vid)强得多。同样，Finsta-LFVILA (L-Vid)成为两个数据集上的最新状态。这样的差距表明，用长视频（和文本）训练VLMs对于长视频场景的重要性。此外，在三个不同的LVLMs中，Video-LLaMA从Finsta中获得的提升最为显著。

长视频问答。表6报告了两个数据集上的结果。同样，所有四个不同的系统都得到了一致的提升，其中L-Vid LFVILA获得了最大的改进。Finsta显著提升了原始LFVILA (L-Vid) VLM在两个数据集上的准确率，分别提高了8.7%和7.1%。Finsta-Video-LLaVA和Finsta-LFVILA (L-Vid)成为两个数据集上的最新状态。上述Finsta在长视频设置上的一致改进明显证实了其在改进VL建模和理解方面的有效性。

5.2 零样本视频-语言理解结果

我们检验了Finsta在零样本设置中的有效性，其中VLMs在没有微调需求训练数据的情况下对下游VL任务进行预测。我们代表性地测试了三个VL任务：视频动作识别、视频-文本检索和视频问答，每个任务使用不同的数据集。结果如表7所示，从中我们可以得出几个关键观察点。首先，所有VLMs都通过Finsta显示出显著的改进，特别是Finsta-InternVideo和Finsta-Video-LLaVA成为零样本最新性能的最新最佳。其次，与之前的微调结果相比，Finsta在零样本场景中带来的改进更为明显。这强调了Finsta在细粒度结构化VL对齐学习中的作用，本质上提供了一个关键信号，有助于无监督学习。Finsta充分利用了外部语义场景结构特征（即SGs）来增强VL理解，相应地带来了这些改进。最后，与其他具有完整双流总和架构的VLMs相比，VideoCLIP和CLIP4Clip的改进最小，表明缺少某些模块可能会显著影响Finsta的性能。

5.3 深入分析

RQ-1: Finsta是否真正解决了VLMs的瓶颈问题？

引言部分强调了解决现有高性能VLMs在视频和语言建模中的三个关键瓶颈的必要性。这里我们通过人类评估VL建模来直接回答这个问题，看看Finsta对主干VLMs的增强是否真的来自于解决了这些主要挑战。我们选择了四个VLMs，包括VIOLET、HDVILA、InternVideo和Video-LLaVA。我们从ActivityNet测试集中随机抽取了300个长视频-语言对，用于零样本视频描述、问答和VL检索任务，每个视频包含超过8个动作，以模拟具有挑战性的动作复杂视频场景。我们邀请了5名经过培训的志愿者，根据VLMs的输出，评估每个VLMs在视频-语言对齐、视频时间动态和视频-语言协作方面的直接性能。在图7中，我们绘制了装备Finsta前后的变化，Finsta明显增强了这三个方面的能力。

此外，我们进一步评估了Finsta实现的细粒度视频-语言对齐/定位。我们测量了来自TSG和DSG的每对节点。注意，这里我们将n降为0，即只考虑对象节点本身。我们主要检查了装备了我们Finsta的HDVILA和Clover VLMs。结果如图8所示。可以看到，无论是1)空间文本-实体和视觉-对象对齐，还是2)动态时间谓词-动作定位，在Finsta系统中都得到了很好的捕获。

通过语言视频定位任务直接评估时间动态建模的直接方法是，通过给定的语言查询精确定位未修剪视频中的具体时刻。我们在同样的具有挑战性的ActivityNet数据上进行实验，并与包括DRN[79]和VSLNet[80]在内的最新模型进行比较。如图9所示，我们的Finsta通过显著提升主干VLMs在语言中定位视频时间性的能力，从而提升了性能。

RQ-2: 每个模块对整体Finsta的贡献有多大？

为了理解每个组件的确切贡献，这里我们对Finsta-HDVILA和Finsta-LFVILA进行了消融研究，分析了SG表示、SG编码器和对齐学习三个方面。结果如表8所示。首先，通过1)取消DSG中的时间核心引用边，2)取消TSG中的副词修饰语节点，3)取消HSG中跨模态核心引用边，分别观察到不同程度的性能下降。其中，安装DSG的时间核心引用边最为重要，平均下降了3.7%。进一步，我们将基于Transformer的GTrm替换为GAT[39]以对TSG进行编码，并将R-GTrm替换为RGNN[81]编码器以对DSG和HSG进行编码。相应地，也出现了相当大的性能下降，表明使用GTrm和R-GTrm编码器的有效性。更重要的是，我们看到取消了STGD-GTrm后，性能下降了5.1%，突出了建模视频移动变化的重要性。最后，我们取消了对象中心空间对比（LOSC）或谓词中心时间对比（LPTC）的对齐学习，与任何其他因素相比，性能下降最为显著。特别是时间对齐（LPTC）在所有其他模块中显示出最显著的影响。此外，如果我们将VL对齐的高阶特征建模降级为一阶方式，也可以看到相当大的下降。这证实了高阶特征建模的作用。

RQ-3: 影响Finsta性能的因素有哪些？

1) 超参数的影响

这里主要研究了三组关键的超参数：构建DSG和HSG中时间核心引用边和跨模态核心引用边参数；OSC和PTC对齐学习的邻域特征的阶数；以及对齐置信度阈值和。这里展示了不同阈值对构建时间和跨模态核心引用边的影响。其他分析详见论文。

2) Post-training数据量的影响

一个普遍的观点是，用于训练的数据越多，得到的性能就越好。对于Finsta的后训练，我们实际上只使用了非常有限的数据量，即正常场景视频的总共50K，这仅仅是原始Clover（5.3M）预训练的0.94%，以及原始HDVILA（136M）预训练的0.037%。在图13中，我们通过评估Finsta-VLM使用不同数量的SG数据进行后训练的端任务（视频-文本检索）性能来验证这一说法。可以看到，即使SG数据不足50K，Finsta-HDVILA和Finsta-Clover都可以迅速达到最佳性能，基于预训练的HDVILA和Clover VLMs。这是因为预训练良好的主干VLMs为更快速的收敛提供了预热启动。然而，如果我们将Finsta视为一个独立的VLM，并从头开始用SG注释进行（预）训练，我们发现预训练过程需要更多的数据，并且也会导致较低的峰值。

3) SG解析质量的影响

我们提出的Finsta系统在很大程度上依赖于SGs的可用性。这里我们研究了SG解析器质量对最终结果的影响。我们通过训练不同性能的SG生成（SGG）步骤来改变SG解析器的质量，以便它们将显示出不同发展性能。SGG评估的传统指标是Recall@K（R@K）。在图14中，我们展示了使用不同质量的SG数据后训练的Finsta-VLMs在端任务（MSVD上的VQA）上的结果。总的来说，SG注释的较低质量确实会损害VL学习在得到的Finsta中的性能。我们还发现，Finsta性能对TSG的质量更敏感。直观上，较低质量的SG结构提供了错误的监督，这将误导细粒度结构对齐。幸运的是，目前使用的SG解析器的质量足以获得满意的SG注释，正如我们目前的实现所证明的。最重要的是，Finsta系统仅依赖于最小量的SG注释数据进行后训练。在端任务微调阶段，实际上不需要输入额外的SG，有效地避免了SG解析质量问题在端任务阶段引入的噪声。

4) VLM模块存在的影响

Finsta的即插即用设计可以方便地应用于任何现有的VLMs。虽然Finsta具有双流总和架构（即文本/视频/跨模态编码器），但即使缺少这三个编码器中的任何一个，Finsta仍然可以工作。然而，没有完整的架构，Finsta的功效将在一定程度上受到内在影响。这可以直接观察到上述VL端任务实验中，VideoCLIP、CLIP4Clip和All-in-one上。为了直接理解，这里我们研究了一个原本具有完整双流总和结构的VLM，我们消融了它通过移除某些模块，然后将其与Finsta系统装备。在图15中我们可以看到，从注入到VLMs的Finsta模块中移除任何部分都会导致明显的性能下降。特别是，1）同时取消文本和视频编码器（TSG和DSG编码器）进行VL细粒度对齐，或2）取消多模态编码器（HSD建模），性能下降更为显著。幸运的是，大多数现有的VLMs都具有双流总和架构，在我们的Finsta中可以充分发挥作用。

RQ-4: Finsta的计算效率如何？

之前我们证明了Finsta有效地帮助VLMs在端任务上取得了更好的性能。这里我们尝试量化Finsta的计算效率。在表9中，我们总结了装备Finsta的HDVILA和Clover VLMs在预训练/后训练阶段的计算成本。可以看到，由于Finsta作为模块，它为主干VLMs引入了额外的参数，大约增加了87M。同时，这也增加了额外的GPU内存。然而，在微调阶段，Finsta实际上已经从主机VLMs中移除，因此不需要额外的消耗。Finsta的设计使其可以方便地集成到现有的预训练VLMs中进行增强，无需太多努力。也就是说，Finsta的一个很大优势在于避免了后训练所需的大量数据和GPU时间。例如，Finsta-HDVILA比原始HDVILA预训练减少了99.9%的数据，仅增加了0.2%的训练消耗。此外，Finsta引入的计算负担有限，即GFLOPs增加了约16%。这是因为Finsta被设计为与主机VLM并行的模块，在推理期间不会造成显著的延迟。同时Finsta采用Transformer架构作为主干，在图数据的高效并行计算方面取得了进展。总的来说，我们的Finsta系统在效率和效果之间取得了成本效益的平衡，这对于实际应用是有利的。

RQ-5: Finsta如何取得更好的进展？

最后，我们尝试直接理解Finsta在端任务上如何成功。我们通过一个案例研究来实证展示Finsta在端任务上的预测。代表性地，我们选取了语言视频定位、视频描述和视频问答，其中我们使用从ActivityNet中随机选取的测试样本。我们将Finsta-HDVILA与HDVILA和金标准答案进行比较，如图16所示。可以观察到，虽然原始的HDVILA做出了不准确或错误的任务预测，但Finsta-HDVILA可以给出更准确的预测，这些预测与金标准答案更为吻合。例如，在依赖于视频时间动态理解能力的Language Video Localization中，给定长达3分钟42秒的视频，HDVILA通过错误地包含许多与滑雪活动无关的视频帧来解释查询“The person is skiing on the slope”。相比之下，Finsta-HDVILA更准确地确定了动作边界。对于描述和问答，关键在于识别视频语义然后生成精确的文本，这需要强大的整体视频-语言视图能力，以及细粒度的跨模态对齐。可以看到，HDVILA的输出包含不准确的内容，例如未能检测到“热身”事件，而是将其识别为“移动”。然而，Finsta-HDVILA成功地解决了所有这些挑战，产生了高质量和更正确的结果。这些案例本质上揭示了Finsta在增强VL理解方面的更强能力。

再展示 Finsta 如何实现增强的细粒度空间和时间定位/对齐的内在工作机制。我们展示了输入视频的动态场景图（DSG）和金标标题在 Finsta 中编码的文本场景图（TSG）。如图 21(a) 所示，构建的 DSG 和 TSG 足够信息丰富，能够描述原始视频和文本信息。对于 DSG，时间共指边也非常准确。进一步，我们尝试以对象中心的空间对齐（OSC）和以谓词中心的时间对齐（PTC）来可视化 TSG 和 DSG 之间的对齐。我们解释了这两种对齐中的双边相似性，并在图 21(b) 和 (c) 中进行了可视化展示。可以看到，对于空间级别的静态对象对齐，文本节点和视觉节点之间有非常精确的对应关系。接着我们检查时间级别的动态对象对齐，其中 TSG 和 DSG 节点在时间轴上具有时间持续性地被定位。有趣的是，系统在时间维度上非常准确地找到了语言和视频中动作的对应关系。例如，对于 TSG 中的“摆动”动作（谓词），Finsta 准确地找到了视频 DSG 中描绘相同动作的时间对应部分，包括“人”和“杆”对象，这些都已在时间顺序和持续时间上被精确地定位。

06 结论

在这项工作中，作者研究了一个细粒度结构化时空对齐学习（Finsta）框架，以增强现有的视频-语言模型（VLMs）。首先，我们采用了文本场景图（TSG）和动态场景图（DSG）来表示输入的文本和视频。我们还通过跨模态核心引用边将TSG和DSG统一到一个整体场景图（HSG）中，以桥接两种模态。其次，我们基于这些SG开发了一个框架，在其中使用图Transformer（GTrm）对TSG进行编码，并设计了一种新颖的循环图Transformer（R-GTrm）来编码DSG和HSG，以进行空间-时间视频特征传播。我们进一步提出了一种时空高斯差分图Transformer（STGD-GTrm），以加强对对象在空间和时间维度上变化的感知。最后，基于Finsta，我们执行了以对象为中心的空间对比（OSC）对齐和以谓词为中心的时间对比（PTC）对齐，以增强VL定位。Finsta系统被设计为一个即插即用模块，通过所提出的表示转移学习，可以方便地集成到现有的预训练VLMs中进行进一步的表示增强。我们在标准和长视频场景的12个数据集上的6个代表性VL建模任务中进行了广泛的实验。我们的Finsta框架持续改进了现有的10个顶尖性能VLMs和3个最近的LVLMs，并在微调和零样本设置中显著推动了新的VL端任务，取得了显著的进步。进一步的深入分析，为我们的系统的优势提供了全面的了解。

成为VIP会员查看完整内容