摘要—作为人工通用智能(AGI)中的一个重要方向,多模态大型语言模型(MLLMs)已经引起了业界和学术界的广泛关注。基于预训练的大型语言模型,这类模型进一步发展了多模态感知和推理能力,表现出令人印象深刻的能力,例如根据流程图编写代码或基于图像创作故事。在开发过程中,评估至关重要,因为它为模型改进提供了直观的反馈和指导。与传统的训练-评估-测试范式(通常只针对单一任务,如图像分类)不同,MLLMs的多功能性促使了各种新基准和评估方法的兴起。本文旨在提供一份关于MLLM评估的全面调查,讨论四个关键方面:1)按评估能力分类的基准类型总结,包括基础能力、模型自我分析和扩展应用;2)基准构建的典型过程,包括数据收集、标注和注意事项;3)系统评估方式,由判定、度量标准和工具包组成;4)下一个基准的展望。本文旨在帮助研究人员更好地掌握如何根据不同需求有效评估MLLM,并启发更好的评估方法,从而推动MLLM研究的进展。本文的项目页面可访问 https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Benchmarks。
关键词—多模态大型语言模型、视觉-语言模型、模型评估、基准。
1 引言大型语言模型(LLMs)[1] 正在席卷整个人工智能领域。通过扩大模型参数的规模和训练语料库,LLMs 展现出了诸如遵循指令 [2] 和从上下文中学习 [3] 等突现能力。与以往为特定任务训练特定模型的范式不同,LLMs 能够通过提示(prompting)解决广泛的通用任务。此外,LLMs 只能支持语言,而我们的世界本质上是多模态的,包含多种形式的信息,例如视觉和音频 [4]。这一局限性促使了一个新型模型家族的兴起,即多模态大型语言模型(MLLMs)[5][6]。基于 LLMs,MLLMs 进一步具备了处理多模态信息的能力,这大大扩展了模型的任务覆盖范围。在 MLLM 开发过程中,模型评估发挥了至关重要的作用,因为它能够定量地反映模型的优缺点。这一反馈有效地促进了模型的迭代,并推动了该领域的进步。升级后的模型反过来又刺激了新基准的出现,这些基准要求模型具备更先进的能力。如图 1 所示,随着 MLLMs 在近年来的飞速发展,众多崭新的专门设计的评估基准应运而生。这给寻求合适基准的研究人员以及致力于优化现有评估方法或引入新基准的学者带来了不便。因此,本工作提供了一项关于 MLLM 评估的全面系统调查,旨在涵盖四个关键问题: 1. 评估哪些能力? 我们组织了现有评估基准的层次化分类法。在顶层,这些评估基准可以分为基础能力、模型行为和扩展应用的评估。 1. 如何构建基准? 具体而言,我们汇总了构建基准的典型方法,包括样本收集和问答(QA)对的标注。我们还讨论了在模型评估过程中需要特别注意的事项,例如数据污染、基准多样性和样本量等。 1. 如何衡量性能? 在评估方法方面,我们介绍了三种衡量 MLLM 性能的代表性方法:基于人工的评估、基于 LLM/MLLM 的评估以及基于脚本的评估。此外,我们还介绍了两种主要的评估指标类型以及四种评估工具包。 1. 下一个基准的方向在哪里? 我们从明确定义的能力分类法、面向能力的评估、面向任务的评估以及融合更多模态的角度进行讨论。 我们希望这项调查能够帮助研究人员更轻松地找到合适的基准,并激发对能够更好反映模型优缺点的基准以及更高效、合理的评估方法的探索。我们将定期在我们的项目页面上更新新的评估论文,组织社区共同努力推动这一领域的进展。 2 背景在本节中,我们简要介绍了多模态大型语言模型(MLLMs)的基本内容,包括其架构和训练。欲了解更全面的说明,推荐阅读相关工作 [5],其中详细讨论了 MLLMs。2.1 MLLM的架构典型的 MLLM 由三个模块组成:模态编码器 [7]、大型语言模型(LLM)和它们之间的连接器,如图 2 所示。以视觉-语言模型为例,给定一个文本查询和视觉样本,视觉编码器从视觉样本中提取特征,而连接器将视觉特征与文本嵌入空间对齐。随后,对齐后的视觉特征与用户查询的文本嵌入一起作为输入。LLM 接受这一多模态输入并生成自然语言响应。与 LLM 处理信息的方式类似,MLLM 的核心是统一的自回归建模:p(wo∣wV,wT)∼∏t=1LP(wt∣w<t,wV,wT)(1)p(w_o | w_V, w_T) \sim \prod_{t=1}^{L} P(w_t | w_<t, w_V, w_T) \tag{1}p(wo∣wV,wT)∼t=1∏LP(wt∣w<t,wV,wT)(1)其中,wo={wo,t}t=1Lw_o = {w_{o,t}}_{t=1}^{L}wo={wo,t}t=1L 是长度为 L 的输出词令序列,wVw_VwV 表示处理后的视觉令牌,wTw_TwT 对应于用户查询的文本嵌入。2.2 MLLM的训练从图 3 可以看出,MLLM 的全面训练过程包括三个阶段:预训练、指令调优和对齐调优。 * 预训练:预训练阶段的主要目标是对齐不同模态 [8] 并将多模态世界知识注入到模型中。预训练阶段通常涉及大规模基于文本的配对数据,例如图像标题数据 [9]。一般来说,标题是图像的“翻译”,用自然语言描述图像内容。为了对齐视觉与文本,MLLM 学习以自回归的方式预测与图像对应的真实标题。 * 指令调优:指令调优的目的是教会 MLLM 遵循用户指令并完成所需的任务。通过这种方式调优后,MLLM 能够泛化到由新指令定义的新任务,从而提升零-shot 性能。指令数据可以来自现有多任务数据集的适配,如 VQA,或来自自我指令 [13][14],其中数据由像 GPT-4 这样的高级 MLLM 合成。给定一张图像和一条指令,模型被训练预测对该指令的响应,通常采用对话形式。 * 对齐调优:对齐调优帮助 MLLM 与特定的人类偏好对齐,例如生成更少幻觉的响应 [15][16][17]。此阶段使用的数据包含关于哪种响应更好的注释。这种响应的偏好可以来自人类,也可以来自 AI。学习目标是鼓励生成与偏好响应相似的回答,同时惩罚不受欢迎的响应。
3 基准类别在本节中,我们介绍了旨在满足多样化评估需求的代表性基准。我们将现有的基准进行了组织,以便快速浏览,如图 4 所示。此外,图 5 展示了不同评估任务的示例,表 1 给出了部分代表性基准的统计数据。
3.1 基础能力
3.1.1 综合评估
设计多模态大语言模型(MLLM)的主要目标之一是开发能够全面回答与感知和推理相关的人类查询的智能聊天机器人。为评估 MLLM 的综合能力,涌现了大量的评估基准。VQA v2 [18] 是一个早期基准,包含 453K 手动标注的问答对用于模型评估。它包括开放式问题,如计数物体和区分颜色,但答案通常简洁,如一个单词。VizWiz [19] 大约在 VQA v2 发布时出现。它包含 8K 个问答对,来源于视觉障碍者的日常生活场景,有效捕捉了残障用户的真实需求。然而,这些传统基准往往无法衡量当今 MLLM 的新兴能力,如强大的推理能力。已有一些工作将现有的传统基准汇总起来进行综合评估。例如,LVLM-eHub [20] 汇编了大量公共数据集,涵盖了 47 个标准的与文本相关的视觉基准。评估结果发现,尽管 MLLM 在常识任务中超越了当前最先进的技术(SOTA),但在图像分类、光学字符识别(OCR)和 VQA 等任务上,仍明显落后于领先的监督模型。同样,LAMM [21] 使用公共数据集进行评估,超出了 9 个常见的图像任务。研究表明,MLLM 在大规模计数问题上表现不佳,仅能进行粗略估计,并且在细粒度属性区分上也存在困难。尽管 MLLM 具有物体定位能力,但准确预测边界框仍然是一个挑战,可以通过进一步微调有效缓解。考虑到现有传统基准的局限性,研究人员开始设计专门针对 MLLM 特点的新评估数据集。例如,MME [24] 建立了一个综合基准,涵盖了 14 个感知和认知任务,其中后者包括常识推理、数值计算、文本翻译和代码推理。类似地,MMBench [22] 包括 20 个不同的能力维度,如物体定位和社会推理。Seed-Bench [23] 与 MME 和 MMBench 有相似之处,但包含了更多的多项选择题。SEED-Bench2 [25] 将问答对从 19K 扩展到 24K,覆盖了 27 个评估维度。MMT-Bench [26] 进一步扩大了数据集,包含了来自不同场景的 31K 个问答对。这些基准揭示了一些共同特征。例如,随着 LLM 规模的增加,模型的表现显著提升 [22],[26]。细粒度的感知任务,如空间定位和像素级感知,通常对 MLLM 造成显著挑战 [22],[24],[26],[35]。此外,MLLM 在理解图表和视觉数学方面往往表现不佳,随着数据集规模的增加,这一限制变得更加明显 [25],[26]。图像-文本交织问题仍然难以解决,相关的训练阶段策略只能部分缓解该问题 [22],[26]。最后,随着 MLLM 的最新进展,开源模型的性能越来越接近甚至超越了闭源模型 [22],[24],[35],这展示了开源社区的快速进展。现实世界的使用场景已经成为研究人员的关注焦点,他们希望了解模型在实际应用中的表现。例如,RealWorldQA1 评估了源自现实场景的基础空间理解能力。尽管这些场景对人类来说相对简单,但通常对最先进的模型构成挑战。同样,BLINK [27] 确定了诸如相对深度估计、视觉对应、法医学检测和多视角推理等任务,人类能够“眨眼”解决这些问题,但这些任务对当前的 MLLM 来说是重大挑战。WV-Bench [29] 和 VisIT-Bench [30] 强调了在现实应用中评估人类偏好和遵循指令能力的重要性。MME-RealWorld [35] 相较于其前身,更加注重质量和难度,包含了最大规模的手动标注问答对和最大的图像分辨率。这些基准揭示了 MLLM 在任务设计和现实世界应用中的一些共同特点。细粒度感知任务继续挑战现有模型 [27],[29]。相比之下,模型在艺术风格识别和相对深度感知任务中表现相对较好 [27]。此外,尽管像 GPT-4o 这样的闭源模型通常优于其他模型 [27],[29],但人类在这些任务中的表现仍远超这些通用模型。为了量化结果,许多研究将评估简化为二元或多项选择问题 [22],[24],[35]。然而,单纯依赖最终答案的正确性忽视了推理过程的重要性,而推理过程对于理解模型的能力至关重要。因此,一些研究直接使用开放式生成结果,并利用基于 LLM 的评估器来评估性能,尽管这也面临 LLM 评分不准确的问题。例如,MMVet [31] 引入了多样的题目格式,要求模型整合各种核心视觉-语言能力来提供解决方案。类似地,TouchStone [32] 强调了现实世界对话能力,并认为仅评估多项选择题无法充分反映多模态对话能力。InfiMM-Eval [33] 采用了全面的方法,评估模型在演绎推理、溯因推理和类比推理等任务中的表现,特别评估了中间推理步骤,将评估与数学问题解决等实际场景对齐。这些基准揭示了 MLLM 在处理复杂任务时的能力和挑战。闭源模型在这些领域表现出色 [31],[33],但往往在理解复杂的定位、结构关系、图表和视觉数学方面存在困难 [32]。高分辨率数据特别有助于模型识别小物体、密集文本和细粒度细节 [32]。此外,尽管 CoT 策略显著提高了闭源模型的推理能力,但对开源模型的影响仍然有限。在开发过程中,基准不断根据过去的经验进行修订和改进。例如,MMStar [28] 识别出许多现有基准允许模型仅使用文本输入来解决问题,这可能会误导对真正多模态性能的评估。为了解决这个问题,它手动收集了 1.5K 个与视觉信息密切相关的问答对,并引入了评估数据泄露和真正多模态能力的指标。CV-Bench [34] 认识到视觉中心基准的稀缺性,并收集了 2.6K 个样本来评估 2D 和 3D 视觉理解。
3.1.2 光学字符识别(OCR)
目前的多模态基准越来越侧重于评估模型在光学字符识别(OCR)任务中的表现,推动了文档理解和交通等领域的技术进步。基准从单一场景发展到复杂的多场景。例如,TextVQA [36] 和 OCR-VQA [37] 聚焦于标准文本识别任务,而 InfoVQA [44] 和 WebSRC [38] 引入了更为复杂的结构推理任务,如理解网页结构和从信息图表中推断信息。SEED-Bench-2-Plus [40] 和 OCRBench [39] 通过包括图表、地图和网页等多种数据类型,进一步拓宽了任务的范围,展示了模型在识别常规文本、非规范文本、遮挡文本和艺术文本方面与最先进的监督模型表现相当。此外,VCR [41] 处理了 OCR 的变种,其中文本嵌入在图像中并部分遮挡,要求模型恢复图像中文本的特定内容。然而,许多 MLLM 在细粒度的 OCR 能力、手写文字、非语义文本和多语种文本识别方面仍面临挑战 [39],[40],[41],[175]。像 GPT-4V 这样的 MLLM 在多个评估中表现出色 [39],[40],[176],但仍然落后于专门训练的 OCR 模型 [175]。此外,不同数据类型对模型性能的影响差异显著。例如,知识图谱和地图比简单图表更具挑战性 [40]。这表明,针对特定数据类型优化模型或引入专业 OCR 组件可能会显著提高性能 [177]。
3.1.3 图表和文档
图表和文档是实际应用中重要的数据类型,旨在以高效的方式传达信息。与自然图像不同,这些数据高度结构化,并且信息密集,要求模型理解布局及嵌入元素之间的关系。为了开发能够理解并推理这些数据的模型,已经提出了针对不同类型图表[42],[44],[47],[48],[49],[50],[51],[52]和文档[43],[45],[46]的基准测试。ChartQA [42] 专注于图表的视觉问答(VQA),如条形图、折线图和饼图。问题的范围从要求简单数据检索的到需要数据提取和数学推理的复杂组合性问题。DocVQA [43] 是针对行业文档中提取的文档图像的视觉问答任务。问题通常侧重于更简单的信息提取任务。InfoVQA [44] 侧重于理解信息图像,这是一种旨在简洁地传达信息的数据类型。由于这种特性,信息图的布局和结构比传统图表更为多样。此基准中的问题通常需要基本的推理和算术能力。随着大规模语言模型(MLLM)的发展,近期的基准转向理解更复杂的图表和文档。例如,DocGenome [45] 专注于科学论文的分析,任务包括信息提取、布局检测、视觉问答及代码生成等。CharXiv [47] 关注来自科学论文的挑战性图表。MMLongBench-Doc [46] 专注于一般长文档的理解,其中文档平均跨度为47.5页。尽管在像ChartQA、DocVQA和InfoVQA这样的传统基准测试中,专有模型和开源模型之间的性能差距正在缩小,但在像CharXiv和MMLongBench-Doc这样更具挑战性的基准测试中,差距仍然很大。此外,当前的MLLM仍然在以下方面存在困难:1)推理问题,尤其是那些要求超出简单信息提取的复杂问题[47];2)长上下文文档理解[46],其中理解长时间跨度的多模态上下文至关重要。
3.1.4 数学推理
视觉数学问题求解能力是评估MLLM的重要方面,催生了许多专门设计的基准测试。MathVista [53] 是一个早期的尝试,收集了来自现有数据集和新创建数据集的样本。图像种类从数学插图,如几何图形和条形图,到不同场景和领域,如抽象场景和医学图像。随后的研究开发了更具挑战性的基准[54],[55],并设计了更精细化的评估设置[56],[57]。例如,We-Math [57] 根据知识概念将问题分解为子问题,并在基础知识概念层面评估MLLM。为了评估MLLM对数学图表的理解,MathVerse [56] 将每个问题转化为6个不同版本,每个版本包含不同的视觉和文本内容比例。总体而言,尽管GPT-4V[53]等模型取得了一些有前景的结果,但一些关键问题仍未解决。首先,大多数当前的MLLM难以理解复杂的视觉图表[53],并且过度依赖文本问题[56]。其次,大多数MLLM倾向于通过死记硬背解决复合问题,而无法正确回答子问题[57]。
3.1.5 跨学科
掌握跨学科知识是评估模型专业性的一个重要指标。为此,已经开发了多个基准测试。ScienceQA [58] 是一个包含讲座和解释注释的科学问题基准,便于进行思维链评估。该基准覆盖了1到12年级的知识,涉及多个领域。MMMU [59] 是一个更具挑战性的基准,涵盖广泛的学科和大学级别问题,包括工程、艺术与设计、商业、科学、人文学科与社会科学以及医学。问题的形式从单一的图像-文本对发展为交错的文本和图像格式。同样,CMMU [60](年级知识)和CMMMU [61](大学知识)是专门针对中文语境的领域特定基准。这些工作的综合评估表明,即使是先进的模型(如GPT-4V和Gemini Ultra)在这些基准上的准确率也仅为60%以下,表明朝着AGI的目标仍有很大的改进空间。
3.1.6 多语种
MLLM正在逐步朝着多语种发展,以便惠及更大的社区。除了主要的英语外,研究人员还收集了其他语言的基准测试,以适应不同文化背景和习俗下的评估,包括中文[60],[61],[63],[69]、乌尔都语[66]、斯瓦希里语[67]、越南语[68]和多语言[64],[65]。例如,CMMMU [61] 紧随MMMU [59],收集了中文的跨学科基准。像ViOCRVQA [68]、Urdu-VQA [66]和Swahili-STR [67]等工作评估了其他语言中的OCR和VQA能力。Video-MME [178] 专门针对多语种评估,包括世界上主流的语言。MTVQA [64] 和M3Exam [65] 开发了涵盖9种不同语言的多语种基准。评估结果显示,在不同语言下的表现差异较大。值得注意的是,无论是专有模型还是开源模型,在使用拉丁字母的印欧语系语言(如德语、法语和意大利语)时表现更好,这可能归因于这些语言在视觉和语言上的相似性【64】。
3.1.7 遵循指令
遵循指令是指模型遵从用户指令并执行指定任务的能力。作为一种基础能力,指令遵循直接影响响应质量和用户体验。MIA-Bench [70] 旨在评估 MLLM 遵循复杂指令的能力。该基准包含一组 400 对图像-提示对,每个指令都关注特定的点,例如长度限制、类型和语法。评估结果显示,专有模型 GPT-4o 取得了最佳性能(得分 88.58),而最佳开源模型 LLaVA-NeXT-110b [179] 的得分仅为 79.84,表明在遵循复杂指令方面存在差距。此外,LLM 大小与 MIA-Bench 性能之间存在较强的相关性,验证了指令遵循能力中的扩展定律。3.1.8 多轮问答当前的 MLLM 通常被开发为多轮聊天机器人,而大多数基准仍然停留在单轮问答阶段。多轮问答基准旨在与现实世界对话场景对接,模拟具有长上下文历史的人机互动设置。ConvBench [71] 开发了一个渐进式评估方案,每轮聚焦于特定的能力,例如感知、推理和创作。评估在单轮和整体对话级别上进行。评估结果表明,MLLM 在细粒度感知方面的不足导致了推理和创作的失败。MMDU [72] 涉及多轮和多图像对话,其中一个对话样本最多可以包含 20 张图像和 27 轮对话。分析指出,开源模型与封闭源模型之间的差距可以归因于有限的对话指令调优数据。
3.1.9 多图像理解
随着 MLLM 的发展,研究人员已开始探索将视觉能力从单图像升级到多图像。为了迎合这一趋势,一些多图像基准已被编制。例如,NLVR2 [73] 是一个早期的基准,每个样本包含一对相似图像和一个自然语言标题。任务是判断该标题是否与这对图像相符。最近提出的基准更加专门化,旨在评估 MLLM。例如,SparklesEval [74] 挑战模型在多图像和多轮对话中的能力,用户提示以交错的文本和图像形式呈现。每个实例包含两轮对话和四张图像。类似地,MMDU [72] 是一个多图像和多轮基准,每个样本最多包含 20 张图像和 27 轮对话。还有一些其他基准更加关注多图像推理。Mementos [75] 旨在评估 MLLM 理解顺序图像的能力,涵盖日常生活、机器人学和漫画等领域。MIRB [76] 旨在评估通过聚合和推理多张图像信息来回答问题的能力,涉及感知、视觉世界知识、推理和多跳推理四个类别。ReMI [77] 设计了 13 个任务,具有不同的输入格式和图像之间的关系,例如相同或不同的概念。MuirBench [78] 设计了 12 个多图像理解任务,例如场景理解和视觉检索,涉及多视角和时间关系等多种图像关系。为了确保评估的鲁棒性,每个实例都与一个具有最小语义差异的无解变体配对。评估结果表明,尽管开源模型在单图像基准中已接近 GPT-4V 等高级封闭源模型的性能,但在多图像推理任务中仍存在较大差距 [76]。此外,当前的 MLLM 在解决多图像问题时普遍面临挑战:即使是表现最佳的专有模型 GPT-4o/Gemini Pro 在准确率上也仅达到 68.0%/49.3%,而在单图像训练的开源模型对多图像问题的泛化能力几乎为零,准确率低于 33.3% [78]。
3.1.10 图像与文本交错理解图像与文本交错是自然的信息传递形式,广泛存在于互联网上的博客和新闻等媒体中。尽管大多数基准采用的是图像-文本非交错格式,但已有多个基准被开发用于评估模型理解交错内容的能力。在 MMMU [59] 中,问题的格式为交错的文本和图像。SparklesEval [74] 采用了类似的格式,并采用了两轮提示方式。VEGA [79] 专门设计用于评估图像-文本交错理解能力。提出的任务要求模型从冗余的图像和文本中辨识出有用的部分并推导出正确的答案。评估结果表明,像 GPT-4V 和 Gemini 1.5 Pro 等先进的专有 MLLM 仅表现一般,表明在交错信息处理方面仍有很大的改进空间。3.1.11 高分辨率处理高分辨率图像是 MLLM 的一项重要能力,特别是在自动驾驶等实际应用中。V*Bench [80] 旨在评估处理高分辨率图像的能力,侧重于正确的视觉细节。该基准包含 191 张分辨率为 2,246×1,582 的高分辨率图像。设计了两个子任务:属性识别任务旨在识别物体的颜色或材质等属性;空间关系推理任务要求模型确定两个物体之间的空间关系。MME-RealWorld [35] 包含 13,366 张图像,分辨率平均为 2,000×1,500,涵盖视频监控、自动驾驶、遥感、图表表格和野外 OCR 等实际任务。评估结果表明,即使是最先进的 MLLM,其准确率也未超过 60%,表明这些场景的难度。
3.1.12 视觉定位
视觉定位是一个经典的计算机视觉任务,旨在根据自然语言查询定位最相关的对象/区域 [181][182]。查询通常是简短的表达式,例如“穿红衣的女人”。在传统基准如 RefCOCO [81]、RefCOCO+ [82] 和 RefCOCOg [82] 中,MLLM 已经达到了与 SOTA 专业模型 [183][184] 相当的性能。考虑到 RefCOCO 系列中相对较高的标注错误率,提出了新的 Ref-L4 [83] 基准。与前作相比,它具有更广泛的类别覆盖、更丰富的注释和由大量词汇构成的更长指代表达式。评估结果表明,SOTA 开源模型的平均准确率约为 66%,仍有很大的提升空间。此外,当前的 MLLM 对实例的规模非常敏感,通常在小目标上表现较差。
3.1.13 细粒度感知
与一般的粗粒度分类任务不同,细粒度感知侧重于对物体的更精细识别,例如回答特定的狗品种,而不是简单的“狗”,这一能力对于下游应用至关重要。FOCI [84] 是一个新基准,旨在评估 MLLM 在这一任务中的能力。它使用来自 ImageNet-21k 的 4 个领域子集作为基础,并收集了 5 个附加的流行分类数据集作为补充。MMVP [85] 识别出 CLIP 基础模型通常表现较差的 9 种模式,并设计了相应的问题,例如方向、颜色和外观等。SOTA MLLM 的评估结果表明,无论是开源还是封闭源模型,都在视觉细节上存在困难,只有 Gemini 和 GPT-4V 的表现超过了随机猜测。LLVisionQA [86] 评估了模型感知和辨识低级属性的能力,例如模糊和亮度。结果表明,大多数开源 MLLM 在没有显式训练低级视觉属性的情况下,准确率超过了 50%,显著优于随机猜测(准确率为 37.94%)。然而,开源模型仍然落后于封闭源的 GPT-4V 或人类。值得注意的是,GPT-4V 的表现与初级人类相当(73.36% vs. 74.31%)。
3.1.14 视频理解
传统的视频问答基准,如MSVD-QA [96]、TGIF-QA [97]和ActivityNet-QA [98],通常是领域和任务特定的。例如,MSVD-QA [97]主要涉及动作和物体识别,回答较为简短。ActivityNet-QA [98]主要包括各种人类活动的视频。随着多模态大语言模型(MLLMs)在图像领域的成功,越来越多的工作致力于利用MLLMs进行视频理解。随着MLLMs的发展,越来越具挑战性和综合性的视频理解基准应运而生。Video-MME [87]是早期的探索之一,涵盖了多个视频领域(6个领域,30个子领域)和不同的视频时长(从11秒到1小时)。使用的模态包括视频帧、字幕和音频。视频是手动收集的,所有的问答对均经过人工标注以确保质量。MVBench [88]定义了一组时间任务,并利用ChatGPT自动重新标注现有视频数据集及其原始标注。MMBench-Video [91]的特点是针对视频提出开放性问题,并为时长从30秒到6分钟不等的视频提供详细答案。MLVU [89]、LVBench [90]、Event-Bench [92]、VNBench [93]和Video-MME的长视频部分主要关注长视频理解,这挑战了模型在理解长时间跨度的多模态上下文中的能力。具体而言,MLVU [89]涵盖了多样化的视频内容、视频时长和评估任务。LVBench [90]选择了超过30分钟的视频,并定义了长视频理解的6个核心能力。Event-Bench [92]关注事件理解能力,设定了三层次的层级结构,包括原子事件、复合事件和整体事件理解。VN-Bench [93]则设计了一个“视频中的针”框架,是一种用于基准生成的合成方法。通过在视频中插入无关的图像或文本,它能够评估检索、排序和计数等任务。还有一些基准关注特定场景和微妙的能力。例如,EgoSchema [94]涵盖了自我中心视频的问答样本。TempCompass [95]评估了细粒度的时间感知能力,如视频播放速度、相机或物体的方向以及物体属性的变化。总的来说,当前的MLLMs,无论是专有的还是开源的,在处理较长的视频时表现不佳务中表现较差,通常依赖于静态视觉线索 。因此,未来的研究迫切需要增强时间感知能力。
3.2 模型自我分析
为了更好地理解多模态大语言模型(MLLM)本身,研究人员开发了各种基准测试,用于研究模型的行为或特征,包括幻觉、模型偏见、安全性和因果分析。在本节中,我们介绍了模型分析的典型方面。
3.2.1 幻觉
“多模态幻觉”一词用来描述这种现象:由MLLM生成的响应内容与视觉内容不一致【185】。幻觉是一个严重的问题,它损害了模型的可靠性并阻碍了其实际应用。该类别中的基准测试旨在更全面地识别幻觉。POPE【99】设计了一个简单的判别任务:该基准通过简单地提示某个特定物体是否出现在图像中来衡量物体幻觉的程度。M-HalDetect【101】则评估生成性能,特别是对子句级别的描述进行建模。AMBER【107】包含了判别任务和生成任务,涵盖了对存在性、属性和关系幻觉的评估。随着MLLM在视频理解方面的进展,VideoHallucer【112】被提出,用于全面评估视频理解中的幻觉,涵盖了物体关系、时间关系和语义细节幻觉等子类别。同时,一些工作探索了评估样本的自动高效构建,其中图像是合成的而非自然的。例如,PhD【105】、MHaluBench【186】、VHTest【110】和OpenCHAIR【108】采用了文本到图像生成模型(如Dall-E 3)来合成所需的图像。研究人员还开发了更有针对性的基准测试,以探测模型倾向并分类幻觉的成因。GAVIE【100】观察到对正实例的偏向,并为各种任务(如属性检测、OCR和视觉问答)引入了正负指令。HallusionBench【106】包含了视觉问题的控制组,以便分析模型的响应倾向和失败模式。Bingo【104】识别出幻觉成因的两类,即偏见和干扰,并设计了相应的视觉问题进行调查。类似地,VLind-Bench【115】旨在评估MLLM在多大程度上倾向于语言先验并导致幻觉。这些更深入的研究为幻觉的形成机制提供了更深刻的理解。根据评估结果,幻觉的主要成因有两个:1)当前的MLLM存在视觉能力不足的问题【104】【106】。例如,MLLM容易被简单的图像操控【106】或引导性问题【104】误导。此外,当面对多张图像时,即使是先进的GPT4V也难以辨别细微差异【104】或推理时间关系【106】,这表明其处理图像序列的能力不足。2)模型偏见。MLLM在不同类型的视觉问题上表现差异,通常与区域、文化和语言有关【104】。这可能是由于模型中记忆的训练数据不平衡。
3.2.2 偏见
模型偏见是阻碍MLLM可用性的关键问题。当前的基准测试已经探索了模型偏见的不同方面,并揭示了可能的原因。VLBiasBench【116】识别出与人类价值观不一致的响应偏见。具体来说,该基准覆盖了9类社会偏见,如年龄、性别和外貌等。对开源和闭源模型的评估表明,开源模型(如LLaVA【187】和Shikra【188】)通常表现出不同程度的偏见,而先进的闭源模型(如Gemini【189】)则表现出较弱的偏见。这表明开源和闭源模型在社会偏见控制方面存在巨大差距。Bingo【104】识别出模型表现中的区域偏见,即当提示具有不同区域/文化背景的视觉问题时,模型的表现差异很大。考虑了三类偏见,包括区域偏见、OCR偏见和事实偏见。MM-SpuBench【117】探讨了虚假偏见,即模型倾向于利用虚假的关联进行预测。作者将其归因于模型的学习过程,其中视觉标记和文本描述之间的粗粒度对齐可能导致错误关联。这些错误先验嵌入在参数化的记忆中,可能干扰在反直觉情境下的预测。例如,两个物体/属性的高度共现可能导致错误预测,如将含有微波炉的场景识别为厨房。评估结果表明,闭源模型通常优于开源模型。此外,模态对齐在抑制虚假偏见中起着至关重要的作用,较好的对齐技术可以提高模型对虚假偏见的鲁棒性。
3.2.3 安全性
模型安全性是模型实际部署中的核心问题。这类基准测试主要考虑鲁棒性,包括分布外(OOD)鲁棒性、对抗鲁棒性以及越狱问题。分布外鲁棒性:它主要考虑MLLM对未见过的领域的泛化能力,例如训练语料库中未出现的不同风格的图像。例如,OODCV-VQA和Sketchy-VQA【118】分别包含了现实生活场景中罕见的图像和简单的草图图像。此外,还包括了从原始问题中改编的OOD文本指令。MultiTrust【119】进一步考虑了来自其他领域的图像,如MRI和红外图像。评估结果显示,MLLM在理解OOD视觉内容方面优于遵循OOD文本指令【118】。这可能表明其在泛化到新指令方面的能力不足。对抗鲁棒性:对MLLM的对抗攻击旨在诱使模型做出错误的响应。因此,对抗鲁棒性是评估的关键方面,衡量模型对恶意攻击的鲁棒性。AttackVLM【120】开发了一个框架,用于合成对抗样本并评估开源MLLM的对抗鲁棒性。评估结果揭示了开源模型(如LLaVA【14】和MiniGPT-4【190】)的对抗脆弱性。AdvDiffVLM【121】旨在提高对抗样本生成的效率和迁移性。实验结果表明,与开源模型相比,闭源模型表现出更好的对抗鲁棒性,表明仍有很大的改进空间。越狱:它侧重于模型拒绝诱使非法响应的能力【119】【191】。VLLM-safetybenchmark【118】设计了两种越狱策略,分别针对LLM和ViT,以评估模型的抗性。MultiTrust【119】结合了三项任务来测试模型对越狱的鲁棒性,包括1)将详细的越狱提示插入图像,2)将正常的文本提示与插入图像的越狱提示结合,3)将越狱提示与正相关或负相关的图像配对。这些研究表明:1)与现代LLM需要通过精心设计的提示进行越狱不同,MLLM在简单但有害的指令嵌入图像时更加脆弱【119】;2)当前对MLLM的微调削弱了嵌入LLM的安全协议【118】【119】。此外,MOSSBench【122】评估了MLLM对某些视觉刺激的过度敏感性,无论是在良性语境下,还是在这些刺激下拒绝无害查询。基准样本包括三种类型的刺激,包括夸张的风险、否定的伤害和反直觉的解释。对20个MLLM的评估表明,过度敏感性在当前的MLLM中普遍存在,尤其是在那些更安全的模型中,这可能表明模型响应的安全性与保守性之间的权衡。
3.2.4 因果关系
因果关系是指一个变量的变化导致另一个变量的变化【123】。理解这一关系的能力,即因果推理,是理解和分析我们世界的重要能力。最近,一些工作探索了评估MLLM因果推理能力的方法。CELLO【123】引入了一个统一的因果定义,涉及人类和/或物体,并构建了一个包含12个因果任务的基准。评估结果显示,当前的MLLM(如BLIP-2【192】和Claude3 Sonnet【193】)展现了较弱的因果推理能力,有些甚至表现不如随机猜测。3.3 扩展应用随着大规模多模态语言模型(MLLMs)的快速发展,研究人员积极探索其在下游任务中的应用,并在医学、情感分析等领域开发了相应的基准。与通用评估不同,这些基准更加关注对领域知识和技能的掌握。3.3.1 医学影像医学影像直接反映人体状态,是临床决策的重要组成部分。许多基准已被开发出来,用于评估MLLMs在分析这类影像中的表现。VQA-RAD [124] 是一个早期为放射学影像设计的视觉问答(VQA)任务基准,涵盖了11种问题类型,包括平面、模式、器官系统等。问题和答案通常简洁明了,答案通常只有一个或几个词。PathVQA [125] 是一个类似的基准,专注于病理影像。SLAKE [126] 是一个双语(中文和英文)基准,拥有更多的注释和更多模式信息,包括分割掩膜和边界框。近期的基准趋向于更全面。例如,PMC-VQA [127] 涵盖了更多的影像领域,包括放射学、病理学、显微镜学、信号处理等。RadBench [129] 包含了二维和三维扫描影像,并涉及五个不同的任务,包括模式识别、疾病诊断、VQA、报告生成和推理诊断。GMAI-MMBench [130] 包括了39种医学影像模式、18个临床相关任务、18个科室和4个感知粒度,采用VQA格式。OmniMedVQA [128] 涵盖了超过20个解剖区域和12种不同的影像模式,如MRI、CT和X光,影像来源于真实的医学场景。12个开源MLLMs的评估结果显示,当前的MLLMs在OmniMedVQA上的表现较差,大多数模型仅略微优于随机猜测。此外,尽管表现最佳的医学领域MLLM MedVInT [127] 的表现也不如BLIP-2 [192]等通用模型(准确率分别为41.50%和50.69%),这可能归因于缺乏医学领域的大规模高质量影像-文本配对训练。这些结果表明,开发专用的医学MLLMs仍然任重道远。3.3.2 情感分析情感分析旨在从各种模态的数据中提取人类情感,如视觉、文本和音频。与通常以客观为主的任务不同,情感分析涉及对高度主观和情感化的多模态内容进行解读,因此提出了新的挑战。借助其强大的泛化和推理能力,MLLMs预计能够在此任务中取得突破。EmoBench [131] 包含从一般情感和意图理解(多类分类,基于预定义的集合)到社交媒体中的情感检测("是/否"的二元分类)等任务,数据来源于现有的数据集。FABA-Bench [132] 专注于面部情感分析,包含情感识别和动作单元识别两个任务。对这些基准的评估结果表明,经过情感相关数据微调的MLLMs相比零-shot MLLMs能实现更优的表现,包括像GPT-4V这样的先进闭源模型。这表明,在情感分析的下游任务中,注入情感领域的知识至关重要。
3.3.3 遥感遥感是一个多学科领域,涉及通过卫星或空中传感器从远距离获取和分析关于地球表面和大气的信息。遥感在环境监测、城市规划、农业和灾难管理等多个应用中发挥着关键作用。为了推进遥感图像的理解,已开发了多个基准。早期的工作如RSVQA [133] 基于传统的VQA构建了评估集,涵盖了分类、物体计数和检测等任务。RSVQA基准中的问题和答案简洁,基于预定义的流程构建,涉及元素(例如道路和水域)及其相关属性(例如形状和大小)或位置关系。该基准的两个子集包含低分辨率(256px)和高分辨率(512px)的图像。更近期的基准涵盖了更广泛的任务和问答对。例如,RSIEval [138] 手动注释了图像标题和视觉问题。除了常见的物体相关问题(如存在、数量或颜色),该基准还包括一些需要推理/外部知识的问题,如“这张图是哪个季节拍摄的?”类似地,VRSBench [140] 是一个综合性的基准,包含图像标题生成、视觉定位和VQA任务。特别地,该基准的边界框注释旨在促进对更先进的定位能力的评估。还有一些基准如RSVG [136]、RSVGD [137] 和RRSIS-D [139],专注于遥感图像中的视觉定位,尝试根据自然语言查询通过边界框或分割掩膜定位物体。评估结果显示,即使是GPT-4V也难以处理VQA和定位任务,这表明将领域知识注入MLLMs是必要的。此外,经过专门微调的MLLMs在某些遥感任务中的表现可以与专用模型相媲美或更优,表明MLLMs在解决遥感任务方面具有潜力。
3.3.4 智能体智能体能够感知环境并采取行动以完成目标任务。最近,开发能够处理和推理多模态信息(如视觉、音频和文本)的多模态智能体引起了广泛关注,其中MLLMs在其中发挥了重要作用。随着这一进展,多个基准被建立,用于衡量MLLMs作为智能体的表现。AppAgent [141] 主要评估智能体在10个智能手机应用上执行50个任务的能力,如“将我的个人资料名称更改为AppAgent”。使用的度量标准包括成功率、奖励和平均步骤数。Mobile-Eval [142] 是一个类似的基准,旨在评估移动智能体。该基准为每个10个主流应用设计了3个指令。GPT4Tools [143] 关注工具使用能力,具有针对不同方面的度量标准,包括整体成功率和在应用特定工具(如思维、工具名称和工具参数)时的成功率。评估结果表明,即使是先进的GPT-4也很难以零-shot的方式规划和执行智能手机应用查询,部分原因在于准确预测坐标的挑战[141]、[142]或对特定应用的知识不足,这需要更多的探索来解决。3.3.5 代码生成代码生成是MLLMs的一个重要能力,在现实生活中有广泛的应用,如帮助编写代码或为复杂问题提供自动解决方案。ChartMimic [144] 涉及两个图表到代码生成任务,即直接模仿和定制化模仿。后者是指生成具有相似风格/美学和定制数据的新图表。该基准涵盖了各种类型的图形,并提供了1000个人工策划的三元组,即图形、Python代码和指令。WCGB [145] 关注网页到代码的生成,旨在评估将网页截图转换为HTML代码的能力。评估结果表明,LLM骨架在多模态代码生成中的能力发挥了重要作用[145]。与闭源模型相比,开源模型在生成可执行代码方面仍然滞后,大多数开源模型的可执行代码生成率低于60% [144]。3.3.6 图形用户界面(GUI)当前的多模态基准正在扩展到GUI领域,以评估MLLMs在感知和推理GUI元素方面的表现。从早期的RefExp [146]基准开始,该基准专注于UI屏幕中的对象定位,研究逐渐发展到更复杂的任务。Widget Captioning [151] 通过要求模型为UI元素生成描述性语言,增加了挑战,测试了其感知能力。Screen2Words [147] 进一步推动了研究的边界,要求模型生成UI节点的内容和功能描述,从而测试其对页面布局和功能的理解。随着研究的进展,ScreenQA [148] 简化了评估过程,仅使用图像和文本输入,专注于通过文本提示定位和识别UI元素的基本问答任务。Rico-semantics [149] 注释了50万个UI元素的属性和关系,增强了评估维度,以评估模型对UI元素形状和语义关联的理解。