大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

大型语言模型（LLMs）与视觉编码器的集成最近在视觉理解任务中展示了令人瞩目的表现，充分利用了它们理解和生成类人文本以进行视觉推理的固有能力。鉴于视觉数据的多样性，多模态大型语言模型（MM-LLMs）在理解图像、短视频和长视频时，在模型设计和训练上表现出不同的变异性。本文重点讨论长视频理解相较于静态图像和短视频理解所带来的巨大差异和独特挑战。与静态图像不同，短视频包含具有空间和事件内时序信息的连续帧，而长视频则由多个事件组成，涵盖事件间和长期时序信息。在本次综述中，我们旨在追踪并总结从图像理解到长视频理解的MM-LLMs进展。我们回顾了各种视觉理解任务的差异，强调了长视频理解中的挑战，包括更细粒度的时空细节、动态事件以及长期依赖关系。接着，我们详细总结了在长视频理解中MM-LLMs的模型设计和训练方法的进展。最后，我们比较了现有MM-LLMs在不同长度视频理解基准测试中的表现，并讨论了MM-LLMs在长视频理解中的未来潜在发展方向。

https://www.zhuanzhi.ai/paper/72b285bc61f4bbb1c7ca164cf4d23606

1 引言

大型语言模型（LLMs）通过扩大模型规模和训练数据展示了在理解和生成类人文本方面的显著多功能性和能力（Raffel等, 2020; Brown, 2020; Chowdhery等, 2023; Touvron等, 2023a）。为了将这些能力扩展到视觉理解任务中，已经提出了各种方法将LLMs与特定的视觉模态编码器相结合，从而赋予LLMs视觉感知能力（Alayrac等, 2022; Li等, 2023a）。单张图像或多帧被编码为视觉标记，并与文本标记集成，以帮助多模态大型语言模型（MM-LLMs）实现视觉理解。对于长视频理解，MM-LLMs（Dai等, 2023; Liu等, 2024c）设计用于处理大量视觉帧和多样化事件，使其能够应用于诸如自动分析体育视频集锦、电影、监控录像和具身AI中的自我视角视频等多种现实世界应用。例如，机器人可以通过长时间的自我视角视频学习如何制作咖啡，它需要分析长视频中的关键事件，包括：1）每6盎司水加入一到两汤匙咖啡粉；2）向咖啡机的水箱加水；3）将咖啡粉放入过滤篮中；4）启动咖啡机并等待其煮咖啡。对包含复杂时空细节和依赖关系的长视频进行建模仍然是一个挑战性问题（Wang等, 2023a; Mangalam等, 2024; Xu等, 2024b; Wu等, 2024）。长视频理解与其他视觉理解任务之间存在显著差异。相比于静态图像理解，它仅关注静态图像的空间内容，而短视频理解还必须考虑事件内跨连续帧变化的时间信息（Li等, 2023b; Zhang等, 2023; Maaz等, 2023）。此外，长视频（超过一分钟的）（Wu 和 Krahenbuhl, 2021; Zhang等, 2024d; Song等, 2024a）通常由多个事件组成，场景和视觉内容各异，需要捕捉事件间和长期的变化以实现有效理解。在有限的视觉标记数量下，如何有效平衡空间和时间细节，对长视频语言模型（LV-LLMs）提出了相当大的挑战（Song等, 2024a; He等, 2024; Xu等, 2024b）。与仅包含几十帧的短视频不同，长视频往往包含数千帧（Ren等, 2024; Zhang等, 2024d）。因此，LV-LLMs必须能够记住并不断学习跨几分钟甚至几小时的视频中的长期关联。为了实现对长视频的全面理解，MM-LLMs在模型设计和训练方面的进展值得特别关注（Fu等, 2024a; Wu等, 2024）。我们在图2中总结了MM-LLMs在图像、短视频和长视频理解中的比较。除了上文讨论的长视频理解与其他视觉理解任务的继承和发展关系外，LV-LLMs也在多图像和短视频MM-LLMs的进展基础上构建，具有相似的视觉编码器、LLM主干和跨模态连接器结构。为有效解决长视频理解任务中新出现的挑战，LV-LLMs设计了更高效的长视频级连接器，这些连接器不仅能桥接跨模态表示，还能将视觉标记压缩到可管理的数量（Li等, 2023c; Zhang等, 2024d）。此外，时间感知模块通常被引入，以增强LV-LLMs对时间信息的捕捉（Qian等, 2024）。对于预训练和指令调优，视频-文本对和视频指令数据对于MM-LLMs处理具有共享空间感知和推理能力的图像和视频至关重要（Li等, 2023b）。长视频训练数据集在时间跨模态语义对齐和捕捉长期关联方面尤为重要，这对LV-LLMs至关重要（Song等, 2024b）。我们的综述将提供对模型设计和训练方法进展的全面总结，追踪MM-LLMs从图像理解到长视频理解的演变。近期关于视觉理解任务的综述通常采用单一视角，要么从全球视角审视MM-LLMs（Yin等, 2023; Zhang等, 2024a），要么从局部视角聚焦于图像或视频理解任务（Zhang等, 2024b; Nguyen等, 2024）。虽然这些工作对研究主题进行了广泛审查，但它们没有讨论不同任务和方法之间的继承与发展关系。此外，现有关于视频理解任务的综述（Tang等, 2023）更倾向于关注一般的视频理解，而非更具挑战性的长视频理解任务。超过一分钟的长视频在教育、娱乐、交通等领域广泛应用，需要强大的模型来实现全面的自动理解（Apostolidis等, 2021）。我们的工作是最早从发展视角总结和讨论长视频理解任务的研究之一。本综述的结构如下：首先，我们发现长视频理解任务相比于图像和短视频理解任务更为复杂（第2.1节），并在第2.2节总结了长视频理解的独特挑战。接下来，我们从模型架构（第3节）和训练方法（第4节）的角度详细总结了MM-LLMs的进展，重点关注LV-LLMs在全面长视频理解中的实现。然后，我们比较了视频LLMs在从秒到分钟（第5.1节）以及从分钟到小时（第5.2节）的视频理解基准测试中的表现，为LV-LLMs的现有研究成果提供了见解。最后，我们在第6节中讨论了长视频理解领域未来的研究方向，以推进这一研究领域的发展。

2 长视频理解

由于长视频理解与图像或短视频理解之间的固有差异，包括多帧和动态场景中存在的各种事件，长视频理解任务在视觉理解方面提出了额外的挑战。

**2.1 视觉推理与理解

视觉推理要求模型能够理解和解释视觉信息，并将多模态感知与常识性理解相结合（Johnson等, 2017; Chen等, 2024c）。视觉推理任务主要有三种类型：视觉问答（VQA）、视觉字幕生成（VC）或描述（VD），以及视觉对话（VDia）。VQA（Antol等, 2015; Zakari等, 2022）涉及根据输入的视觉数据和伴随的问题生成自然语言答案。VC和VD系统（Vinyals等, 2015; Sharma等, 2018; Li等, 2019）分别生成简洁的自然语言句子以总结视觉数据的主要内容，或生成详细且全面的视觉数据描述。VDia（Das等, 2017; Qi等, 2020）则涉及围绕视觉内容进行的多轮对话，由一系列问题-答案对组成。图像理解。如图3（a）所示，图像理解任务涉及单张图像的各种视觉推理任务，例如图像字幕生成和以图像为中心的问答（Sharma等, 2018; Mathew等, 2021; Changpinyo等, 2022; Li等, 2023a; Chen等, 2024a）。这些任务仅关注空间信息，包括对全局视觉内容的粗粒度理解（Ordonez等, 2011; Sohoni等, 2020）以及对局部视觉细节的精细理解（Wei等, 2021; Liu等, 2024b; Peng等, 2024）。短视频理解。与图像理解任务仅涉及静态视觉数据不同，短视频理解还结合了多帧视觉数据中的时间信息（Xu等, 2016; Bain等, 2021; Li等, 2023b, 2024e）。除了空间推理（Ranasinghe等, 2024）外，事件内的时间推理和跨帧的时空推理对于短视频理解至关重要（Huang等, 2018; Lin等, 2019; Diba等, 2023）。长视频理解。长视频通常跨越数分钟甚至数小时，通常包含多个事件，与短视频相比，长视频涵盖更丰富的空间内容和时间变化（Mangalam等, 2024; Li等, 2024f; Song等, 2024a,b）。如图3（c）总结的那样，长视频理解不仅涉及空间和事件内的时间推理，还涉及事件间的推理和跨不同视频事件的长期推理（Wu等, 2019; Wu和Krahenbuhl, 2021; Wang等, 2023a; Zhou等, 2024; Fang等, 2024）。

**2.2 长视频理解的挑战

与图像和短视频相比，长视频带来了全面视觉理解的新挑战，具体如下：丰富的细粒度时空细节。长视频涵盖广泛的主题、场景和活动，包含不同的细节，如物体、事件和属性（Fu等, 2024a; Wu等, 2024）。与静态图像和具有相似多帧的短视频相比，这些细节更加丰富，使长视频理解更具挑战性。例如，可以在任何帧中引入细粒度的空间问答，而时间问答可以在长视频推理任务的帧间或帧内引入（Song等, 2024a）。用于长视频理解的多模态LLMs必须捕捉跨越数分钟甚至数小时的视频帧中的所有相关细粒度时空细节，并使用有限数量的视觉标记。场景转换和内容变化中的动态事件。长视频通常包含各种动态事件，场景和内容变化显著（Wu等, 2024）。这些事件可能根据出现的顺序在语义上相关并按时间协调（Bao等, 2021），也可能由于情节反转（Papalampidi等, 2019）而表现出显著的语义差异。事件间推理涉及多个具有不同视觉信息的事件，对于准确的内容理解至关重要（Cheng等, 2024a; Qian等, 2024）。对于多模态LLMs来说，区分语义差异并在不同事件中保持语义一致性对长视频理解尤为重要。长期关联和依赖关系。长视频通常包含跨长时间段的动作和事件。捕捉长期依赖关系并理解视频的不同部分在长时间段内如何相互关联是一项挑战（Wu等, 2019）。用于图像或短视频的LLMs通常无法将当前事件与远离当前时间的过去或未来事件联系起来（Wu和Krahenbuhl, 2021），也无法进行长期决策（Wang等, 2024b）。

3 模型架构的进展

在本节中，我们从模型架构的角度讨论了多模态大型语言模型（MM-LLMs）从图像目标模型到长视频目标模型的进展。如图4所示，用于图像、短视频和长视频的MM-LLMs具有相似的结构，包括视觉编码器、LLM主干和中介连接器。与图像目标MM-LLMs中的图像级连接器不同，视频级连接器在跨帧视觉信息的整合中起着关键作用。在长视频LLMs（LV-LLMs）中，设计连接器更加具有挑战性，要求有效压缩大量视觉信息并结合时间知识来管理长期关联。

**3.1 视觉编码器与LLM主干

MM-LLMs，包括图像目标和视频目标模型，通常使用相似的视觉编码器来提取视觉信息。LLM主干在早期的MM-LLM方法中也比较通用，而现有的LV-LLMs倾向于在实现中使用长上下文LLMs。视觉编码器。预训练的视觉编码器负责从原始视觉数据中捕捉视觉知识。如表1所示，图像编码器如CLIP-ViT-L/14（Radford等, 2021）、EVA-CLIP-ViT-G/14（Sun等, 2023）、OpenCLIP-ViT-bigG/14（Cherti等, 2023）和SigLIP-SO400M（Zhai等, 2023）广泛用于图像和视频目标的LLMs。近期工作（Li等, 2024a）表明，视觉表示（包括图像分辨率、视觉标记的大小和预训练视觉资源）比视觉编码器的大小更重要。 LLM主干。LLM是视觉理解系统中的核心模块，继承了推理和决策的属性。相比于GPT-3/4（Brown, 2020；Achiam等, 2023）和Gemini-1.5（Reid等, 2024）等闭源LLMs，更多的开源LLMs更常用于实现视觉LLMs。这些开源LLMs包括Flan-T5（Chung等, 2024）、LLaMA（Touvron等, 2023b,c；Dubey等, 2024）、Vicuna（Chiang等, 2023）、QWen（Bai等, 2023a）、Mistral（Jiang等, 2023）、Openflamingo（Awadalla等, 2023）、Yi（Young等, 2024）和InternLM（Team, 2023；Cai等, 2024）。 LLM的强度通常与视觉LLMs的多模态能力相关联（Li等, 2024b,a）。这意味着对于相同规模的LLM，语言能力更强的模型表现更好；而对于相同LLM的不同规模模型，规模更大的模型通常会带来更好的多模态性能。此外，长上下文LLMs通过将上下文长度扩展到成千上万的标记，支持更多数据的学习（Yang等, 2024）。最近的LV-LLMs有效地将LLM的长上下文理解能力转移到视觉模态（Zhang等, 2024d）。

**3.2 模态接口

视觉编码器和LLMs之间的连接器作为模态接口，将视觉特征映射到语言特征空间。鉴于视觉数据来源的多样性，这些连接器可以分为图像级、视频级和长视频级连接器。图像级连接器。图像级连接器用于将图像特征映射到语言空间，以处理原始视觉标记，它们广泛用于图像目标和视频目标的MM-LLMs中。这些连接器可以分为三类：第一类直接使用单层线性层（Liu等, 2024c）或多层感知器（MLP）（Liu等, 2024a）将图像特征映射到语言嵌入空间。然而，这种保留所有视觉标记的方法不适用于涉及多图像的视觉理解任务。为了应对保留所有视觉标记的局限性，第二类采用了基于池化的方法，包括空间池化（Maaz等, 2023）、自适应池化（Xu等, 2024a）、语义相似标记合并（Jin等, 2024）和相邻标记平均（Zhang等, 2024e；Li等, 2024c）。第三类利用了基于交叉注意力或Transformer的结构，例如Q-Former（Li等, 2023a）和Perceiver Resampler（Jaegle等, 2021），用于图像特征压缩。Q-Former是一种轻量级Transformer结构，使用一组可学习的查询向量来提取和压缩视觉特征。许多视觉LLMs（Dai等, 2023；Li等, 2023b；Ma等, 2023a；Liu等, 2024e）遵循BLIP-2，选择基于Q-Former的连接器。其他视觉LLMs（Ma等, 2023b；Jiang等, 2024）选择使用Perceiver Resampler来通过提取补丁特征降低计算负担。视频级连接器。视频级连接器用于提取连续的视觉数据并进一步压缩视觉特征。相比于图像目标MM-LLMs中的图像级连接器，视频级连接器在视频目标MM-LLMs，包括LV-LLMs中尤为重要。一些方法直接将图像标记串联后输入到LLMs，使其对帧图像数量较为敏感（Dai等, 2023；Lin等, 2023）。用于标记压缩的图像级连接器的类似结构可以适用于视频级接口，如基于池化和Transformer的结构。沿时间序列维度的池化是减少时间信息冗余的直接方式（Maaz等, 2023；Song等, 2024a）。基于Transformer的方法，如Video Q-Former（Zhang等, 2023；Ma等, 2023a；Ren等, 2024）和Video Perceiver（Wang等, 2023b），在提取视频特征的同时降低了数据复杂性。此外，基于3D卷积的方法可以从空间和时间维度提取并压缩视觉数据（Cheng等, 2024b；Liu等, 2024d）。长视频级连接器。专为长视频LLMs设计的连接器考虑了两个特殊因素：处理长视频数据的高效视觉信息压缩和时间感知设计以保留时间信息。有效压缩视觉信息不仅需要将输入的视觉标记减少到可接受的数量，还需要保留长视频中包含的完整时空细节。视频包含两种类型的数据冗余：帧内的空间数据冗余和帧间的时空数据冗余（Li等, 2022；Chen等, 2023a）。一方面，当帧内的像素在区域级别相同时，空间数据冗余就会产生，从而导致通过完整的视觉标记表示冗余视觉帧时效率低下。为了减少空间视频数据冗余，LLaVA-Next系列方法（Zhang等, 2024e；Li等, 2024d；Liu等, 2024b；Li等, 2024c）合并了相邻帧补丁标记，而Chat-UniVi（Jin等, 2024）合并了相似的帧补丁标记。另一方面，时空数据冗余包括帧间像素冗余和运动冗余（Pourreza等, 2023），其中这些冗余视频帧之间的语义信息相似。为了减少时空视频冗余，MovieChat（Song等, 2024a）和MALMM（He等, 2024）在将帧特征输入到LLMs之前合并了相似帧特征。在减少冗余信息的同时，保留更多视频时空细节对于准确的长视频推理至关重要（Diba等, 2023）。为了平衡全局和局部视觉信息并支持更多帧输入，SlowFast-LLaVA（Xu等, 2024b）采用了低帧率的慢路径来提取特征，同时保留更多的视觉标记，以及高帧率的快路径，通过更大的空间池化步长关注运动线索。此外，时间相关的视觉数据可以有效管理长视频固有的时空信息（Hou等, 2024）。时间感知设计可以增强视频相关LLMs的时间捕捉能力，这对于长视频理解特别有益。VTimeLLM（Huang等, 2024a）和InternLM-XComposer-2.5（IXC-2.5）（Zhang等, 2024c）都使用帧索引来增强时间关系。不同之处在于其方法：VTimeLLM通过训练包含帧索引的解码文本来学习时间信息，而IXC-2.5则将帧索引与帧图像上下文一起编码。TimeChat（Ren等, 2024）和Momentor（Qian等, 2024）将时间信息直接注入帧特征中，以捕捉细粒度的时间信息。具体而言，TimeChat设计了一个时间感知帧编码器，用于在帧级别提取视觉特征，并添加相应的时间戳描述，而Momentor利用了一个时间感知模块，用于连续时间编码和解码，将时间信息注入帧特征中。

结论

本文总结了视觉LLMs从图像到长视频的进展。基于对图像理解、短视频理解和长视频理解任务差异的分析，我们识别了长视频学习的关键挑战。这些挑战包括在动态连续事件中捕捉更多的细粒度时空细节和在场景转换与内容变化中压缩视觉信息中的长期依赖关系。接着，我们介绍了从图像LLMs到长视频LLMs在模型架构和模型训练方面的进展，旨在提升长视频的理解与推理能力。随后，我们回顾了多个不同长度的视频基准测试，并比较了不同方法的视频理解性能。该比较为长视频理解的未来研究方向提供了见解。我们的论文是首个聚焦于长视频LLMs的开发和改进，以提升长视频理解的研究工作。我们希望本研究能推动LLMs在长视频理解与推理领域的进步。

成为VIP会员查看完整内容

相关内容

大语言模型

关注 55

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

大模型如何生成可控文本？人大等最新《大型语言模型的可控文本生成》综述

专知会员服务

37+阅读 · 2024年8月23日

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

专知会员服务

16+阅读 · 2024年6月21日

大模型如何迭代？北大等《大型语言模型自我进化》综述

专知会员服务

58+阅读 · 2024年4月29日

图+大模型如何结合？港理工最新《大语言模型（LLMs）时代的图机器学习》综述

专知会员服务

56+阅读 · 2024年4月24日