多模态大语言模型(MLLMs)通过将强大的大语言模型(LLMs)与各种模态编码器(例如视觉、音频)相结合,模仿了人类的感知和推理系统,将LLMs定位为“大脑”,而将各种模态编码器视为感官器官。这个框架赋予了MLLMs类似于人类的能力,并为实现人工通用智能(AGI)提供了潜在的路径**。随着GPT-4V和Gemini等全方位MLLMs的出现,已经开发了多种评估方法来评估其在不同维度上的能力。本文系统且全面地综述了MLLMs的评估方法,涵盖以下关键方面**:(1)MLLMs及其评估的背景;(2)“评估什么”,即基于所评估的能力,回顾并分类现有的MLLM评估任务,包括一般的多模态识别、感知、推理和可信度,以及社会经济、自然科学与工程、医学应用、AI代理、遥感、视频和音频处理、3D点云分析等领域的特定应用;(3)“在哪里评估”,即将MLLM评估基准划分为通用基准和特定基准;(4)“如何评估”,即回顾并说明MLLM评估步骤和指标;我们的主要目标是为MLLM评估领域的研究人员提供宝贵的见解,从而促进更强大和可靠的MLLMs的发展。我们强调,评估应被视为一门关键学科,对推进MLLMs领域至关重要。 关键词:多模态大语言模型,评估,评估任务,评估基准,评估指标,多模态模型,多模态任务,人工通用智能,自然语言处理,计算机视觉
人工智能(AI)一直是计算机科学中的一个具有挑战性的研究领域,其目标是使机器具备像人类一样的感知、理解和推理能力。近年来,大语言模型(LLMs)在人工智能领域取得了显著进展,并在各种任务中取得了显著成功。通过扩大数据量和模型规模,LLMs展现出了非凡的涌现能力,例如指令遵循、上下文学习和链式思维推理。尽管它们在众多自然语言处理任务中表现出色,但LLMs本质上仅限于语言模态,这限制了它们在离散文本之外理解和推理的能力。 另一方面,人类通过多种渠道感知世界,如视觉和语言,每种渠道在表示和传达特定概念方面都有独特的优势。这种多模态感知方式促进了对世界的全面理解,并为实现人工通用智能(AGI)提供了潜在的路径。为了弥合人类感知与人工智能之间的差距,开发了多模态大语言模型(MLLMs)以模仿人类的多模态感知能力。具体来说,MLLMs将强大的大语言模型(LLMs)定位为“大脑”,而将各种模态编码器视为感官器官,其中模态编码器使MLLM能够通过多种模态感知和理解世界,而LLMs则提供对复杂和全面的多模态信息的高级推理能力。该设计使MLLMs能够像人类一样学习感知和推理,利用来自多个渠道(如视觉、语言、音频等)的信息,在多模态理解和推理方面表现出色。因此,MLLMs在传统的视觉任务和更复杂的多模态挑战中都展现了多样化的能力。 随着我们朝着AGI级别的MLLMs迈进,评估在其研究、开发和部署中起着至关重要的作用。首先,一个设计良好的评估框架可以更准确地反映MLLM的能力,从而量化其优点和局限性。例如,[1]表明尽管当前的MLLMs在全局图像理解方面表现出色,但在局部图像区域的推理上表现不佳。同样,[2]指出现有的MLLMs在细粒度的视觉关系和交互理解方面存在困难。其次,从可信度的角度评估MLLMs对于确保其鲁棒性和安全性至关重要,特别是在医学诊断和自动驾驶等对可靠性要求极高的敏感应用中。第三,探索和评估MLLMs在各种下游任务中的表现有助于其应用和部署,确保它们满足不同使用场景的具体需求。 总而言之,更全面和系统的评估方法对于激发更强大和更可靠的MLLMs的发展至关重要。随着MLLMs的不断进步,它们也需要高标准、全面的评估基准。MLLMs的发展与其评估过程之间的这种互进关系类似于双螺旋结构,彼此推动前进。在GPT-4V、BLIP、Gemini和LLava等开创性MLLMs之后,已经引入了许多评估协议,涵盖了从评估多模态识别、感知和推理等一般多模态能力,到评估在社会经济、自然科学与工程、医学应用、遥感等下游应用中的具体能力的广泛方面。 尽管MLLM评估对于支持MLLM研究、开发和部署具有重大价值和吸引力,但目前学术界缺乏一篇系统性的综述来提供关于当前MLLM评估方法、现有挑战和潜在未来方向的全貌。本文旨在通过对涉及多种任务的MLLM评估方法进行详尽的综述来填补这一空白,这些任务根据所考察的模型能力进行分类,包括在多模态理解和可信度方面的一般能力,以及在社会经济、自然科学与工程、医学应用、遥感、视频、音频和3D点云分析等下游应用中的具体能力。我们从不同的角度进行综述,涵盖MLLMs及其评估的背景,评估什么,在哪里评估,如何评估,比较分析,当前挑战和开放性方向。我们希望这篇综述能够为学术界提供关于MLLMs及其评估的全面概览,涵盖已取得的成就、当前的挑战以及MLLMs及其评估的未来发展方向。 我们将本工作的主要贡献总结为三个关键方面。首先,我们通过构建现有评估方法的分类体系,并突出其主要贡献、优势和局限性,提供了对多模态大语言模型评估的系统且全面的综述。该分类体系根据所考察的能力和目标应用对评估方法进行分类。与之前专注于NLP[3],[4]或MLLM设计[5]的综述不同,我们的工作独特地集中于MLLMs的评估,据我们所知,目前尚未有相关的全面综述。其次,我们通过对多个数据集进行详尽的基准测试和讨论,调查并分析了MLLMs及其评估的最新进展。第三,我们识别并讨论了MLLMs及其评估中几个未来研究的挑战和有前景的方向。
本节介绍多模态大语言模型(MLLMs)评估的背景,包括多模态大语言模型的基础和相关内容。
本节介绍了多模态大语言模型(MLLMs)的基础,包括MLLM框架、MLLM训练策略和MLLM的评估。2.1.1 MLLM框架 MLLMs通常由处理输入文本的大语言模型、编码其他各种模态输入(如图像、视频)的模态编码器以及将文本输入和其他模态输入对齐到统一特征空间的模态投影器组成。 大语言模型。在学习输入文本时,基于Transformer的大语言模型(LLMs)被广泛采用。具体而言,Transformer架构 [6]采用编码器-解码器框架,其中编码器由六层组成,每层包含一个多头自注意力机制和一个多层感知机(MLP)。解码器采用类似结构,由六层组成,包含多头注意力、掩码多头注意力和MLP。在此基础上,LLaMA [7]由于其在各种语言任务中的出色表现,已成为文本特征提取的领先模型。在LLaMA架构的基础上,开发了像Vicuna [8]和Guanaco [9]这样的指令微调模型,并用于构建MLLMs时的文本特征提取。 模态编码器。用于处理不同模态输入的各种编码器,如图像、视频和音频。视觉Transformer(ViT)广泛用于图像特征提取,利用一系列Transformer模块,每个模块由一个多头自注意力层和一个前馈网络组成。在实际应用中,基于具体应用需求采用了各种预训练版本的ViT。例如,CLIP预训练的ViT常用于通用图像理解 [10],而SAM预训练的ViT则更适合于详细和精细的图像分析 [11]。 对于视频数据编码,ViT通过时间编码器进行了增强,以有效捕捉时间相关信息。例如,Valley [12]整合了一个时间建模组件,以更好地理解视频输入的动态方面。对于3D图像特征提取,特别是在点云数据中,采用了专门的模型,如Point-BERT [13]和PointNet [14]。这些模型专门设计用于高效捕捉3D数据的特征,从而更全面地理解空间结构。基于Transformer的架构也广泛应用于音频数据编码。例如,Whisper模型 [15],专为通用语音识别设计,利用Transformer网络有效学习音频特征。 模态投影器。在多模态大语言模型中,模态投影器通常用于将不同模态(如文本、图像、音频)的特征对齐到统一的特征空间。该模块通常涉及线性层或神经网络,旨在将高维输入特征转换为统一表示。例如,LLaVA [10]采用一个可训练的投影矩阵将编码的视觉特征转换为语言嵌入标记空间。通过将每个模态投影到一个通用空间,模型可以更好地捕捉跨模态关系,确保不同模态之间的兼容性和对齐。2.1.2 MLLM训练策略 对齐预训练。作为MLLM训练的第一阶段,对齐预训练通常侧重于对齐不同模态并学习多模态对应知识。通常,预训练涉及大规模的文本配对数据,如用自然语言描述图像、音频或视频的标题。例如,文献 [10], [16] 在对齐预训练阶段采用标准的交叉熵损失,使MLLMs能够自回归地预测给定图像的标题。为了更好地保留原始预训练知识,MLLMs通常保持预训练模型(如预训练的视觉编码器或大语言模型)冻结,仅训练可学习的投影模块进行对齐 [10], [16]。 多模态指令微调。多模态指令微调通过将语言作为任务指令对MLLMs进行微调,旨在构建一个在遵循用户意图方面具有卓越交互性和适应性的通用模型。指令微调通常包括两个阶段,即(1) 构建视觉指令遵循数据和(2) 进行视觉指令微调。视觉指令遵循数据通常具有{Instruction, Input, Output}的格式,其中Instruction表示任务指令,Input指的是各种模态的输入(如Input = {Image}),而Output则表示关于给定任务指令的响应。这些数据集通常基于公共多模态数据进行扩展,并使用大语言模型进行增强 [17], [18]。通过构建的指令遵循数据,MLLMs通过基于指令和输入图像顺序预测输出中的每个标记来进行全监督方式的微调。 对齐人类偏好。对齐微调特别旨在增强模型行为以满足特定的人类期望。广泛采用了两种对齐微调技术,即带有人类反馈的强化学习(RLHF)[19]和直接偏好优化(DPO)[20]。具体而言,RLHF通过基于人类反馈的奖励训练模型,引导它们生成更理想的输出。另一方面,DPO通过学习人类偏好直接优化模型,无需复杂的奖励模型,以更直接的方式改善对齐。
本节概述了用于评估多模态大语言模型(MLLMs)能力的各种任务,涵盖了多模态理解和可信度分析等一般任务,以及社会经济、自然科学与工程、医学应用、AI代理和其他与视觉相关的具体任务。表1和表2分别总结了MLLMs在一般任务和具体任务上的评估情况。
多模态大语言模型(MLLMs)的出现扩展了传统语言模型的能力,使其能够处理和理解来自不同模态的信息,如文本和图像。多模态理解的目标是评估这些模型在跨不同类型输入信息时的整合和解释能力。具体来说,多模态理解任务可以大致分为多模态识别、多模态感知和多模态推理。3.1.1 多模态识别 多模态识别旨在识别和分类不同模态中的特定对象、动作和属性。该任务侧重于模型检测和识别各种方面的能力,包括概念识别、属性识别、动作识别和光学字符识别(OCR)。 概念识别侧重于模型识别和标记不同模态中各种实体、实例、对象和场景的能力。这个任务包括识别一般和特定的概念,如图像中的对象(例如,识别“汽车”或“狗”)[1],[21],[22],特定类别的实例(例如,特定的地标或产品)[1],[21],[22],以及更广泛的场景(例如,“海滩”或“山脉”)[1]。作为MLLMs在多模态理解中的关键能力,MLLMs通常在概念识别任务中表现出色。例如,[1]表明大多数MLLMs在场景理解任务上表现出较高的性能(例如,>40%)。在MM-Vet [22]中,LLaVA-13B(V1.3, 336px)[25]在概念识别中得分为38.1%,表明其有效理解和分类视觉概念的能力。另一个模型,LLaMA-Adapter v2-7B [153],凭借其大规模的微调数据,表现略好,得分为38.5%。TouchStone [31]提出了一个称为TouchStone分数的复合分数,它反映了模型在包括概念识别在内的所有评估任务中的表现。Qwen-VL [154]在TouchStone框架内的概念识别任务中表现突出,显示出与其他模型相比更高的准确性和一致性。[32]表明mPLUG-Owl2在概念识别任务上优于其他模型,如Qwen-VL-Chat [154]和InstructBLIP [155]。其在COCO [157]和Flickr30K [158]等主要数据集上的高CIDEr分数 [156]展示了其在准确识别和描述复杂视觉概念方面的优势,使其成为该领域的领先模型。 属性识别是指在不同模态下识别视觉主体属性的任务。它涉及识别风格、质量、情绪、数量、材质以及人类职业等属性。在MMBench [21]中,MLLMs在属性识别任务上的表现差异显著。例如,InternLM-XComposer2 [159]以73.0%的准确率获得了最高分之一,展示了其在该领域的强大能力。另一方面,像OpenFlamingo v2 [160]这样的模型在此任务中的表现较差,准确率仅为5.3%。在SEED-Bench [1]中,MLLMs在属性识别任务上的表现通过“实例属性”维度进行评估,该维度专门设计用于评估模型识别和理解实例属性的能力。结果表明,InstructBLIP Vicuna [155]在“实例属性”任务中表现出色,展示了其在属性识别方面的强大能力。在MME基准测试中 [23],通过包括颜色、材质、形状及其他描述性特征的具体子任务,评估了MLLMs在属性识别任务上的表现。例如,在颜色子任务中,InfMLLM [161]取得了高准确率,展示了其在图像中识别颜色属性的熟练程度。在OpenVQA [26]中,InstructBLIP [155]在属性识别中表现出色。TouchStone [31]的结果表明,Qwen-VL [154]在TouchStone框架内的属性识别任务中表现最佳,能够始终如一地以高准确率识别对象的详细属性。mPlug-Owl [32]也表现强劲,而PandaGPT [162]等模型在复杂的属性识别场景中落后。 动作识别是指在不同模态下识别主体执行的动作或活动的任务。在MMBench [21]中,MLLMs在动作识别任务中的表现通过“细粒度感知(跨实例)”类别进行评估。该任务涉及识别人体动作,包括姿势运动、人-物体交互以及人-人交互。具体模型及其表现进行了比较,结果以细粒度的方式呈现。根据SEED-Bench [1],InstructBLIP Vicuna [155]模型在“动作识别”维度表现出色,优于其他模型。在OpenVQA [26]中,像InstructBLIP [155]这样的模型在动作识别中表现强劲。在Visual CoT [39]中,不同MLLMs在“动作识别”任务上的表现差异显著。基准模型在多个数据集上取得了一定的表现。然而,当采用Visual CoT(链式思维)过程 [163]时,表现通常有所提高,特别是在需要更深入推理或理解视觉上下文的更复杂任务中。通过检查动作识别任务中的准确率百分比和排名等表现指标,研究人员和从业者可以洞察不同MLLMs在理解和分类动作方面的能力。这种全面的评估对于推进MLLMs在涉及时间动态和序列理解的多模态任务中的应用至关重要。 文本识别指的是从视觉输入(如文件或标志的图像)中识别和转换文本的任务。在MMBench [21]中,MLLM在文本识别任务上的表现通过具体指标和观察进行了突出展示。模型的准确性因其架构和规模而异,某些模型由于语言模型选择和预训练数据等因素表现显著更好。例如,开源模型如LLaVA [25]系列和InternLM-XComposer2 [159]表现出色,而其他如MiniGPT的模型在此任务上表现较为困难。在SEED-Bench [1]中,MLLM在文本识别任务中的表现通过其在多项选择题中选择正确选项的准确性来衡量,然后与人类注释提供的标准答案进行比较。LLaVa [25]在文本识别评估中的表现无与伦比,优于其他维度的表现。根据MME [23],像GPT-4V [164]、Skywork-MM [165]和WeMM [166]这样的模型在OCR任务中取得了最高分。具体来说,GPT-4V [164]以185分的成绩显示出其在从图像中识别和转录文本方面的高水平能力。在Open-VQA [26]中,像InstructBLIP [155]这样的模型在文本识别任务中表现出色,表明其在识别和转录图像中的文本方面的熟练程度。在Visual CoT [39]中,基准模型在OCR任务中通常表现出中等的准确率。使用Visual CoT(链式思维)通常会提高OCR任务的表现。这种方法使模型能够将文本识别过程分解为更易于处理的步骤,从而提高准确性和理解度。在TouchStone [31]中,Qwen-VL [154]在识别和读取图像中的文本方面表现出色且可靠。mPlug-Owl [32]在其框架内的OCR任务中表现突出,显示出比其他模型如Qwen-VL-Chat [154]和InstructBLIP [155]更强的表现。通过检查文本识别任务中的准确率和排名等表现指标,研究人员和从业者可以评估不同MLLMs在处理和解释视觉数据中的文本信息的能力。这种能力对于需要文本识别和解释的多模态应用(如自动化文档处理或基于图像的信息检索)至关重要。3.1.2 多模态感知 对象定位是指确定场景中对象的位置。它还包括识别物体的数量并确定物体的方向。在MMBench [133]中,MLLMs在对象定位任务中的表现相对中等。不同模型之间的表现差异显著。对象定位的整体准确性显示出改进空间,特别是与基准中的其他任务相比。MM-Vet [22]虽然没有专门的对象定位任务,但通过“空间意识”类别评估了相关能力,这可以指示MLMMs在包括对象定位在内的更广泛空间意识能力的任务中的表现。在SEED-Bench [1]中,MLLMs在对象定位任务中的表现通过“实例位置”维度进行评估,其中InstructBLIP [155]模型在“实例位置”维度中取得了高准确率,表明其在图像中定位实例的强大能力。根据MME [23]的结果,像Lion和InfMLLM [161]这样的模型在对象定位子任务中取得了高分。通过查看“实例位置”维度中的准确率百分比和排名等表现指标,研究人员和从业者可以评估不同MLLMs在识别视觉场景中对象空间上下文的精度。这对于理解和改进模型的空间理解能力至关重要,这是先进多模态AI系统的基本方面。 对象关系涉及模型理解和识别视觉场景中不同对象之间空间关系的能力。这可以包括空间关系(例如,在上方、在旁边)、对象之间的交互(例如,一个人拿着一本书)或更复杂的上下文连接(例如,理解椅子是用来坐的)。该任务评估模型准确解释和推理这些图像或视频中的关系的能力,这对于视觉推理、场景理解以及更复杂的视觉语言交互等任务至关重要。在MMBench [21]中,MLLMs在对象关系任务中的表现差异显著。具体来说,模型在准确识别视觉数据中对象之间关系的成功程度各不相同,可能包括空间关系、交互和上下文连接。表现指标表明,像GPT-4v [164]和Qwen-VL-Max [154]这样的模型在这一类别中表现最佳,在理解和推理对象关系方面显示出比其他模型更高的准确性。MM-Vet [22]通过“空间意识”能力评估了LMMs在对象关系任务中的表现,使用基于LLM的评分系统,为评估模型在理解和描述视觉场景中的对象关系方面的准确性和响应质量提供了全面的指标,其中MM-ReAct-GPT4 [167]在“空间意识”类别中取得了高分,表明其在需要理解空间关系的任务中的强大表现。根据SEED-Bench [1]的结果,像InstructBLIP Vicuna [155]和BLIP2 [168]这样的模型在“空间关系”维度中表现出色,表明其在理解对象之间的空间关系方面的熟练程度。MME [23]的结果显示,某些模型在对象关系任务中表现强劲。例如,像WeMM [166]和InfMLLM [161]这样的模型在理解和关联图像中对象位置方面表现出色。在V*Bench [36]中,SEAL [36]由于其先进的视觉搜索能力在对象关系任务中表现突出,使其能够准确地定位和推理高分辨率图像中的对象关系。像GPT-4V [164]和Gemini Pro这样的模型也表现良好,但在最具挑战性的场景中没有达到与SEAL相同的准确性水平。LLaVA-1.5 [25]表现出中等成功,表明在处理复杂视觉任务时仍面临挑战。对象关系任务是评估MLLMs整体性能的关键组成部分。它测试模型的视觉理解深度、多模态信息整合能力及其在复杂现实场景中的稳健性。在对象关系任务中表现出色的模型在需要复杂视觉推理和上下文感知分析的应用中可能会表现出色。 对象交互涉及理解和识别视觉场景中对象之间的交互。该任务侧重于模型解释不同对象在动作、运动或功能关系方面如何相互关联的能力。根据Seed-Bench [1]的结果,通过选择多项选择题中的正确选项来衡量每个MLLM在此任务中的表现。然后将此选择与人类注释员确定的标准答案进行比较。像InstructBLIP Vicuna [155]这样的模型在“实例交互”维度中表现出色。P2G [28]增强型模型优于基准模型,如mPLUG-OWL和Instruct-BLIP,得益于即插即用的对齐机制,它增强了对复杂图像中对象关系和交互的理解。这些模型利用外部代理进行对齐,提高了其识别和推理图像中对象之间交互的能力。VL-Checklist [41]框架详细评估了不同VLP模型,如CLIP [17],LXMERT [169]和ViLT [170]在对象交互任务中的处理能力。评估显示,虽然像CLIP这样的模型在识别对象之间的动作方面表现出色,但它们通常在空间关系方面存在困难。通过准确识别正确与错误的图文对,量化了这些模型的表现,在空间推理任务中特别注意到了一些挑战。ARO基准 [42]强调了像NegCLIP [171]和X-VLM [172]这样的模型在对象交互任务中表现强劲,特别是在理解对象之间的空间和动作关系方面。对象交互任务的评估衡量了MLLM模型理解视觉场景的关系和组成方面的能力。这提供了模型捕捉上下文和对象交互能力的洞察力,这对于生成准确且有意义的解释至关重要。3.1.3 多模态推理 常识推理评估MLLMs在理解和推理图像中对象交互方面的能力。这包括识别交互的性质和上下文,确定对象之间的关系,并根据这些交互和一般世界知识推断逻辑结论。在MMBench [21]中,像LLaVA-InternLM2-20B [173]和Qwen-VL-Max [154]这样的MLLMs表现显著优于其他模型,其得分表明对常识推理场景的扎实理解。这些模型在所有评估指标上均有所提升,突显了它们的推理能力。具体来说,这些模型在这一类别中的表现优于其他模型,使其在多模态背景下的常识推理任务中脱颖而出。MME [23]基准测试的结果显示,像GPT-4V [164]、WeMM [166]和XComposer-VL等模型在常识推理任务中表现强劲。例如,GPT-4V [164]取得了142.14的高分,表明其在给定图像和指令的背景下应用常识知识和推理的非凡能力。在Open-VQA [26]中,InstructBLIP [155]在常识推理方面表现强劲,反映了其基于视觉线索和一般知识进行合理推断的能力。在TouchStone [31]中,Qwen-VL [154]是常识推理任务中的表现最佳者,展示了在做出逻辑和上下文上适当推断方面的强大能力。在MDVP-Bench [27]中,SPHINX-V [27]在常识推理任务中领先,表现出色,在理解和应用上下文知识到视觉场景中的准确性方面表现卓越。像Osprey-7B [174]和Ferret-13B [175]这样的模型也表现良好,但在细微推理能力方面未达到SPHINX-V [27]的同等水平。LLaVA-1.5 [25]落后,表明在处理复杂推理任务时面临挑战,这些任务需要更深层次的理解和推理。通过检查常识推理任务中的准确率和排名等表现指标,研究人员和从业者可以评估不同MLLMs在应用常识知识进行逻辑推断的能力。这种能力对于需要理解视觉场景上下文和含义的多模态应用至关重要。 关系推理指的是模型在给定的多模态背景下理解和推断不同对象、概念或实体之间的社会、物理或自然关系的能力。这个任务涉及分析图像、文本或两者的组合中的不同元素之间如何相互关联。关系可以是空间的、因果的或关联的,要求模型理解不同成分之间的潜在连接,以做出准确的预测或生成有意义的响应。在MMBench [21]中,关系推理任务的关键表现指标包括社会关系、物理关系和自然关系等子任务的准确率。例如,像InternLM-XComposer2 [159]这样的模型在这些任务中表现出色,显示了优越的推理能力,而其他模型的表现则有所不同。InternLM-XComposer2 [159]整体表现最佳,在关系推理方面具有较高的准确性。Gemini-Pro-V和GPT-4v [164]也表现良好,特别是在社会和物理关系推理方面,表明在理解复杂对象和实体之间的关系方面具有较强的能力。开源模型的整体表现较差,表明在这一领域还有改进的空间。在Visual CoT [39]中,评估了各种MLLMs在关系推理任务中的表现。结果表明,VisCoT-7B在336x336分辨率下在关系推理任务中表现最佳,特别是在Open Images和GQA等数据集上表现出色。在II-Bench [68]中,Qwen-VL-MAX [154]在关系推理任务中领先,表现出卓越的准确性,能够理解和推理对象之间的关系。像LLaVA-1.6-34B [176]和Gemini-1.5 [177] Pro等模型也表现良好,但在更复杂的场景中略有落后。GPT-4V [164]表现出一定的能力,但在更复杂的推理任务中有所滞后,突出显示了MLLMs在实现人类般的关系理解方面的持续挑战。关系推理任务在MLLM模型性能评估中具有重要意义,因为它不仅仅是基本的对象识别,还评估模型理解复杂关系和对象交互的能力。这是模型认知深度、跨不同场景泛化能力及其多模态信息整合能力的关键指标,这些对于高级AI应用和实现机器的人类般理解至关重要。 逻辑推理指的是模型理解和应用逻辑原则来分析和解释多模态数据的能力。这包括需要模型基于给定的前提得出结论、做出预测或解决问题的任务,识别模式、解决难题并通过复杂场景进行推理。在MMBench [21]中,通过结构化图文理解和未来预测等子任务评估MLLMs在逻辑推理中的表现。这些任务评估了模型处理和推理结构化视觉和文本信息的能力。例如,像LLaVA-InternLM2-20B这样的模型在这些推理任务中表现出色,而其他模型则可能在涉及结构化图文理解的更复杂场景中表现不佳。在SEED-Bench [1]中,MLLMs在逻辑推理任务中的表现通过“视觉推理”维度进行评估,其中像“MiniGPT-4”和“mPLUG-Owl”这样的模型在“视觉推理”维度中表现出色。TouchStone [31]的结果显示,Qwen-VL [154]在逻辑推理任务中表现最佳,表现出基于视觉和文本输入做出准确且逻辑推断的强大能力。II-Bench [68]的结果显示,Qwen-VL-MAX [154]是逻辑推理任务中的领先模型,表现出在解释和推理复杂视觉隐含意义方面的卓越准确性。逻辑推理任务是MLLM性能评估的一个重要方面,因为它测试了模型将逻辑原则应用于复杂多模态数据的能力。这一任务不仅评估了模型的认知能力及其整合和推理多样化输入的能力,还提供了关于其现实世界应用潜力、稳健性和朝着人类般智能进展的洞察。因此,逻辑推理对于理解MLLMs的真正潜力和局限性至关重要。
鲁棒性指的是MLLM在噪声环境下处理和处理损坏、扰动或对抗性多模态输入而不显著降低性能的能力。在CHEF [87]中,SPHINX-V [27]成为最鲁棒的模型,表现出在各种场景中对输入损坏的卓越抵抗力。Ferret-13B [175]和Osprey-7B [174]的表现也不错,但在恶劣条件下的鲁棒性略有降低。LLaVA-1.5 [25]表现出较低的鲁棒性,当输入严重损坏时,其准确性显著下降。MADBench的结果表明,GPT-4V [164]是最鲁棒的MLLM,表现出对欺骗性提示的出色抵抗力并保持高准确性。其他模型如Gemini-Pro和LLaVA-NeXT-13b-vicuna的表现也不错,特别是在提示工程的帮助下,显著提高了它们的鲁棒性。MiniCPM-Llama3-v2.5表明,提示修改可以显著提高模型处理欺骗能力,使其成为进一步研究和开发的关键领域。在MMR [89]中,GPT-4V [164]和Qwen-VL-max [154]在鲁棒性任务中表现最佳,表现出对误导性问题的极强抵抗力。LLaVA-1.6-34B [176]也表现出高鲁棒性,使其成为在具有挑战性场景中的更可靠模型之一。Mini-Gemini-HD-34B在开源模型中表现突出,其鲁棒性能表现良好,但在某些领域存在漏洞。MM-SpuBench [90]表明,GPT-4V [164]是最鲁棒的MLLM,在多个类别中表现出对虚假偏见的强大抵抗力。Claude 3 Opus和Intern-VL也表现出高水平的鲁棒性,特别是在共现和光照/阴影等某些偏见类别中。LLaVA-v1.6 [25]虽然表现不错,但在相对大小和透视等特定偏见方面表现出更多的脆弱性。鲁棒性任务在MLLM模型性能评估中至关重要,因为它确保模型不仅在理想条件下有效,而且在面对现实世界挑战时也具有稳健性和可靠性。通过评估和提高鲁棒性,我们可以开发出更加多才多艺、值得信赖且适用于各种场景的MLLMs,最终导致更安全、更有效的AI系统。 幻觉被定义为评估模型在多模态输入中生成不正确、不相关或虚构的描述或对象的倾向。在POPE [93]中,InstructBLIP [155]是最可靠的模型,其幻觉率最低,使其在避免错误描述方面最为准确。MiniGPT-4和LLaVA [25]表现出中到高的幻觉率,表明在保持准确性方面存在一些挑战。Shikra表现出最高的幻觉率,表明其在准确描述视觉内容而不引入不存在元素方面有很大的改进空间。在GAVIE [97]中,InstructBLIP-13B [155]是避免幻觉的最可靠模型,其次是MiniGPT4-13B和LLaVA-13B [25]。mPLUG-Owl-7B表现出最高的幻觉倾向,突显了其在准确解释视觉内容方面面临的挑战。这些结果强调了微调和指令微调在减少MLLMs幻觉中的重要性。在HallusionBench [101]中,GPT-4V [164]在最小化幻觉方面最为有效,尽管其准确性表明仍有改进空间。LLaVA-1.5 [178]和Gemini Pro Vision在这一领域面临更大挑战,经常生成虚构内容。BLIP2-T5 [168]表现中等,但仍在处理复杂视觉数据时表现出困难。这些结果强调了进一步改进MLLMs以更好处理幻觉的必要性,确保更可靠和准确的视觉解释。幻觉是MLLM模型性能评估中的一个重要方面,因为它直接影响模型的准确性、可靠性和可信度。通过最小化幻觉,开发者可以创建更加鲁棒、可推广且适用于广泛应用的模型,特别是在高风险或面向消费者的环境中。 伦理侧重于评估多模态大语言模型生成的输出的伦理影响。此任务评估模型的响应是否符合伦理标准和社会规范,特别是在避免有害、偏见或不适当内容方面 [92]。Multi-Trust [92]的结果显示,GPT-4V [164]和Claude3是伦理对齐最好的模型,表现出高准确性和拒绝伦理上有问题提示的强大能力。LLaVA-1.5-13B [178]也表现不错,但一致性较差,而Gemini-Pro表现中等,表明在伦理决策方面仍有改进空间。这些结果突显了MLLMs持续伦理评估和改进的重要性,以确保其在各种应用中的安全和公平使用。 偏见指的是评估模型产生反映或强化社会偏见、刻板印象或对某些群体不公平待遇的输出的倾向。此任务的目标是确保模型的行为和生成内容公平、公正,并且不会助长有害的偏见 [92],[106]。在Multi-Trust [92]中,GPT-4-Vision和Claude3在减轻偏见方面表现最佳,两者在刻板印象相关任务中的拒绝回答率达到完美。Gemini-Pro和LLaVA-1.5-13B [178]也表现不错,但拒绝率略低,表明在始终避免偏见方面存在一些挑战。同样,在RTVLM [106]中,GPT-4-Vision和Claude3在避免偏见输出方面表现最佳,在文本和图像相关场景中均达到完美或近乎完美的拒绝率。Gemini-Pro和MiniGPT-4-13B [179]表现较差,尤其是在引入视觉元素时,表明其更容易受到输入数据中潜在偏见的影响。偏见任务在MLLM评估中至关重要,因为它有助于确保模型在社会上负责任,不会助长错误信息或有害的刻板印象。通过解决和减少偏见,开发者可以提高AI系统的公平性和包容性,使其更值得信赖且适合在多样化的现实环境中部署。 安全性评估MLLMs避免生成有害、冒犯性或其他不安全内容的能力。这包括确保模型不会生成可能导致伤害、鼓励暴力、支持非法活动或传播错误信息的输出。在MMUBench [108]中,LLAVA-13B [25]和MiniGPT-4表现出显著的脆弱性,高ASR得分表明在抵抗不安全内容方面频繁失败。InstructBLIP [155]表现较好,ASR中等,而IDEFICS表现最强,显示出最低的ASR和最高的安全性。在JailBreakV-28K [109]中,LLaVA-1.5-7B [178]和OmniLMM-12B在生成不安全内容方面表现出更高的易感性,在多个安全策略中ASR得分显著。InstructBLIP-7B [155]和Qwen-VL-Chat [154]表现较好,但仍存在漏洞,表明尽管它们具有一些安全机制,但在确保对不安全提示的稳健防御方面仍有改进空间。在MM-SafetyBench [107]中,LLaVA-1.5-7B [178]和MiniGPT-4在生成不安全内容方面表现出更高的易感性,在多个场景中ASR得分较高。InstructBLIP [155]表现较好,但仍存在漏洞,而IDEFICS [180]表现出对不安全提示的最强抵抗力,表明其在安全标准方面的更好对齐。安全性是MLLM评估的一个重要组成部分,因为它确保模型在安全、伦理和法律界限内操作。它对于保护用户、遵守法规以及保持公众信任至关重要。在安全任务中表现出色不仅可以防止伤害,还支持开发负责任和可信赖的AI系统的更广泛目标。
文化评估模型在不同文化背景下理解、解释和响应内容的能力。此任务旨在评估模型在处理和生成内容时如何理解和尊重各种文化的细微差别、传统和社会规范。在CODIS [35]中,GPT-4V [164]和Gemini在文化任务中表现最佳,表现出更好理解和解释文化背景的能力。LLaVA-1.5-13B [178]和InstructBLIP-13B [155]表现落后,特别是在没有明确上下文提示时解释文化细微差别时准确性较低。在CVQA [111]框架中,GPT-4o和Gemini-1.5-Flash [177]在文化多样性问题的处理上表现出色,无论是英文还是本地语言。LLaVA-1.5-7B [178]和InstructBLIP [155]在处理本地语言提示时面临更多挑战,表明这些模型在更好处理文化多样性方面仍有改进空间。文化任务在MLLM评估中的重要性体现在全球化世界中,AI系统在不同文化环境中使用时的表现。文化任务评估模型处理语言细微差别、传统、社会规范和文化参考的能力,这些因素在不同地区或社区之间可能存在差异。 社会评估模型解释和响应社会问题的能力,包括理解社会规范、伦理考虑和文化细微差别。此任务旨在评估模型生成符合社会价值观、避免强化负面刻板印象并尊重社会敏感性的内容的能力。在MM-SOC [113]中,MLLMs在各种社交媒体内容理解任务中进行了评估。这些任务包括虚假信息检测、仇恨言论检测、幽默检测、讽刺检测、冒犯性检测、情感分析和社会背景描述。LLaVA-v1.5-13b [25]在虚假信息检测、仇恨言论检测和情感分析任务中分别取得0.642、0.587和0.335的宏F1分数。InstructBLIP-flan-t5-xxl [155]在社会背景描述理解上取得了0.294的ROUGE-L分数。在TransportationGames [114]中,评估了各种MLLMs在一系列交通相关任务中的表现,这些任务根据布卢姆分类法分为三大类:记忆、理解和应用交通知识。Qwen-VL-Chat [154]在交通标志问答任务中取得了54.47%的准确率。InternLM-XComposer-7B [159]在交通事故分析中在GPT-4-Eval指标上得分为77.9。TransCore-M [114]在ROUGE-L指标上得分为82.1,表明其在生成基于给定场景的适当和上下文相关安全建议方面的有效性。
数学旨在评估模型推理和解决可能涉及文本和视觉数据的数学问题的能力。这些任务通常需要模型在不同模态(文本和图像)中执行多步骤推理,并应用数学概念得出正确的解决方案。TouchStone [31]基准中的数学任务揭示了某些MLLMs在整合视觉和文本数据进行数学问题解决方面表现良好,而其他模型在准确解释和推理数学视觉方面的复杂性上表现挣扎。Qwen-VL [154]是TouchStone基准中数学任务的表现最佳者,表现出处理广泛数学问题的强大能力。mPLUG-Owl在几何和算术方面也表现良好,而PandaGPT [162]等模型表现明显较差,通常在准确解决基本数学任务时表现出困难。在M3CoT [67]中,GPT-4V [164]表现最佳,准确率为46.97%,表现出处理这些任务的强大能力。LLaVA-V1.5-13B [25]取得了40.86%的中等准确率,表现合理,但在多步骤推理方面存在一些挑战。CogVLM-17B的准确率为29.09%,在问题解决的一致性上表现较差。InstructBLIP-13B [155]表现最差,准确率为27.55%,表明在处理这些任务的复杂性方面面临重大困难。数学任务在评估多模态大语言模型(MLLMs)中至关重要,因为它们测试了模型执行复杂推理、整合多模态数据(文本和视觉)并逻辑应用抽象概念的能力。 自然科学评估模型理解、推理和生成与各种自然科学领域相关的响应的能力。这些任务通常涉及生物学、化学、物理学和地球科学等主题,可能需要模型解释和整合来自文本和视觉数据源的信息。在M3CoT中,评估了各种MLLMs在自然科学上的表现,以评估它们在生物学、化学和物理学等科学领域中处理多模态复杂推理的能力。GPT-4V [164]在测试的模型中在自然科学任务上表现最强。LLaVA-V1.5-13B [25]表现良好,但略低于GPT-4V [164]。CogVLM-17B和CogVLM-17B在自然科学任务中表现适中。在MUIRBENCH [30]中,GPT-4o和GPT-4-Turbo在自然科学任务上表现最佳,特别是在图表和地理理解方面。其他模型如Gemini Pro和Mantis-8B-Idefics2表现中等,而VILA1.5-13B在处理这些任务的复杂性方面表现困难。在MMStar [24]中,GPT-4V(高分辨率)[164]在自然科学任务上领先,特别是在理解和推理科学内容方面。其他模型如GeminiPro-Vision和InternLM-XC2也表现良好,但熟练程度各不相同。在M3Exam [127]中,GPT-4在自然科学任务中表现最佳,准确率最高,展示了跨多种语言理解和推理科学内容的强大能力。ChatGPT和Claude紧随其后,表现适中,而Vicuna在处理这些任务的复杂性方面表现挣扎更多。在SceMQA [119]中,GPT-4-V在SceMQA基准中的自然科学任务中表现最佳,特别是在生物学和化学等学科中,展示了强大的多模态推理能力。Google Gemini Pro表现良好,而InstructBLIP-13B [155]和MiniGPT4-13B在处理多模态科学推理的复杂性方面表现出更多挑战。自然科学任务评估模型理解和推理复杂科学概念的能力,跨越多种模态,如文本和图像。这些任务挑战模型应用生物学、化学和物理学等领域的领域特定知识,反映了它们在教育和研究中的现实应用潜力。它们在这些任务上的表现突显了模型在多模态整合和科学推理方面的优势和劣势,对于高级认知任务至关重要。 工程旨在评估模型理解、处理和应用工程概念、要求和技术文档的能力。这些任务通常涉及解释和综合来自多个来源的信息,包括文本工程文档、CAD图像和工程图纸。任务通常基于实际工程挑战,如根据特定技术要求设计产品或确保符合工程标准。在DesignQA [130]中,GPT-4o-AllRules在工程任务中表现最佳,特别是在规则检索和尺寸合规方面。GPT-4-AllRules也表现良好,但准确性略低。Claude-Opus-RAG在生成高质量解释方面表现出色,而Gemini-1.0-RAG表现中等熟练。LLaVA-1.5-RAG在处理这些任务的复杂性方面表现困难,特别是在准确检索和应用规则方面。在MMMU [75]中,GPT-4V [164]在工程任务中领先,特别是在处理复杂多模态内容方面,其次是SenseChat-Vision和Qwen-VL-MAX [154]等模型,虽然它们也表现良好,但存在一些局限性。其他模型如LLaVA-1.6-34B [176]和InstructBLIP-T5-XXL [155]表现中等熟练,但在更复杂的工程场景中面临挑战。
医学任务旨在评估模型理解、推理和生成与医学信息相关的响应的能力。这些任务通常涉及解释和综合来自各种模态的数据,如医学文本、临床图像(如X射线、MRI等)和病历。目标是评估模型应用医学知识支持临床决策、诊断、治疗计划和患者护理的能力。在MMMU [75]基准测试中,GPT-4V [164]在医学任务中领先,特别是在处理复杂多模态内容方面,其次是SenseChat-Vision-0423-Preview和Qwen-VL-MAX [154]等模型,虽然它们也表现良好,但存在一些局限性。其他模型如LLaVA-1.6-34B [176]和InstructBLIP-T5-XXL [155]表现中等熟练,但在更复杂的医学场景中面临挑战。在GMAI-MMBench [133]中,GPT-4o在医学任务中领先,紧随其后的是Gemini 1.5和GPT-4V [164]。医学特定模型如MedDr表现合理,但总体上落后于表现最佳的通用模型,突显了医学任务的复杂性以及在该领域进一步发展的必要性。M3D [132]基准测试突显了MLLMs如M3D-LaMed在处理复杂3D医学图像任务方面的能力。M3D-LaMed在报告生成和VQA方面表现出色,表明其在临床决策支持和医学图像分析中的强大潜力。其他模型如RadFM虽然有能力,但在生成详细医学报告和回答临床相关问题方面的准确性和精度方面落后。
AI代理指的是设计用于评估模型作为视觉基础代理功能的任务。这些任务要求模型理解、交互和导航复杂的视觉环境和用户界面,基于视觉和文本输入做出高级决策并执行动作。在VisualAgentBench [135]中,GPT-4V [164]在AI代理任务中领先,任务成功率最高,展示了其在多模态推理和交互方面的强大能力。像Gemini 1.5和Claude-Next这样的模型表现良好,但在处理更复杂的场景时面临一些挑战。其他模型如LLaVA-Next [176]和Qwen-VL [154]表现中等熟练,表明在进一步发展以提高其在AI代理任务中的有效性方面仍有改进空间,特别是在决策和任务执行方面。在EgoPlan-Bench [136]中,GPT-4V [164]在AI代理任务中领先,紧随其后的是XComposer。这些模型表现出强大的规划能力和有效利用视觉信息进行决策的能力。其他模型如Gemini-Pro-Vision和SEED-X表现合理,但在更复杂的场景中面临挑战。Yi-VL虽然有能力,但在有效整合视觉数据进行任务规划方面落后。在PCA-EVAL [137]基准测试中,GPT-4V [164]在AI代理任务中脱颖而出,展示了跨不同领域的感知和行动方面的高准确性。GPT-4(HOLMES)系统也表现良好,特别是在需要多步骤推理和API集成的任务中。其他模型如QwenVL-Chat和MMICL表现中等能力,但在更复杂的场景中表现困难,而InstructBLIP [155]面临显著挑战,反映了MLLMs在具体化决策任务中不同的有效性水平。AI代理任务在MLLM评估中至关重要,因为它们测试了模型作为基础代理在复杂环境中实际应用的能力。这些任务有助于确定模型在需要深刻理解视觉和文本信息的任务中自主执行的能力,使其在机器人技术、用户界面自动化和数字助手等现实应用中至关重要。
3D点云指的是模型需要理解、处理和分析由点云表示的3D空间数据的任务。这些任务通常涉及使用点云回答问题、定位对象或生成准确反映3D场景的描述。在ScanQA [141]中,ScanQA模型在3D点云任务中表现最佳,特别是在准确回答问题和定位3D空间中的对象方面。它优于其他模型,如ScanRefer + MCAN和VoteNet + MCAN,这些模型表现出一定的熟练程度,但在3D空间推理的复杂性上表现挣扎。在LAMM [142]中,基准MLLM在3D点云任务中表现出不同程度的熟练程度。虽然它表现出在3D对象检测和VQA任务中执行的基本能力,但在3D视觉定位方面的表现明显较弱,特别是在零样本设置中。然而,经过微调后,尤其是在3D VQA任务中,模型的准确性几乎达到完美。M3DBench [143]的结果显示,LLaMA-2-7B模型在3D点云任务中表现强劲,特别是在VQA和多区域推理方面,取得了最高的BLEU-4和CIDEr分数。OPT-6.7B模型在具身规划任务中也表现良好。Vicuna-7B-v1.5虽然有能力,但在大多数任务中的总体得分较低,表明在处理复杂的3D推理和规划场景时面临挑战。3D点云任务在MLLM评估中的重要性体现在它们评估了空间推理、多模态整合和高级认知能力,这些在涉及3D环境的现实应用中至关重要。这些任务为评估MLLMs在处理复杂现实挑战中的整体性能和稳健性提供了全面的基准。 视频指的是涉及理解、分析和推理视频内容的任务。这些任务评估模型理解视频内容的视觉和时间方面的能力,并生成准确且上下文相关的响应。在MMBench-Video [144]中,模型A(例如,GPT-4V)在视频任务中表现最佳,特别是在视频问答(VideoQA)和事件识别等任务中表现出色。模型B(例如,LLaMA-2-7B)表现也不错,但在处理复杂视频场景时面临一些挑战。模型C(例如,Vicuna-7B-v1.5)表现中等能力,特别是在动作分类方面表现出色,但在更复杂的任务中表现滞后。在MVBench [146]中,VideoChat2在各种视频任务中表现出色,显著优于其他MLLMs如GPT-4V和VideoChat。VideoChat2在动作序列识别和场景转换等任务中的出色表现突显了其卓越的时间理解和视频推理能力。同时,虽然GPT-4V表现出色,但在处理视频任务的全范围时没有VideoChat2那么有效。VideoChat虽然表现适中,但在处理视频理解的更复杂方面表现挣扎,表明当前MLLM方法在视频任务上仍有显著改进空间。在SOK-Bench [145]中,GPT-4V在视频任务中表现最强,特别是在需要整合视觉和常识推理的情况下表现出色。AskAnything表现稳健但不一致,特别是在直接回答任务中表现出色,但在更复杂的推理任务中表现挣扎。Video-ChatGPT表现竞争力强,但在SOK-Bench场景中所需的复杂推理上表现更困难。 遥感指的是涉及分析和解释来自卫星或机载传感器的数据,以提取有关地表和环境的相关信息的任务。这些任务通常利用各种类型的遥感数据,如光学图像、雷达数据和多光谱或高光谱影像,执行如土地覆盖分类、变化检测和环境监测等活动。在MDAS [149]中,像ResTFNet和SSR-NET这样的模型在超分辨率任务中表现出色,而SeCoDe在光谱分离方面表现领先。结果表明,整合多种模态可以显著提高土地覆盖分类任务的性能。这些发现突显了不同MLLMs在处理复杂遥感任务中的优势和挑战,展示了多模态数据融合在遥感应用中实现高精度和可靠性的必要性。在HighDAN [147]中,HighDAN在遥感任务中表现最佳,特别是在跨城市语义分割方面。它在整体准确性、平均IoU和F1得分方面表现出色,展示了其在不同城市环境中出色的泛化能力。SegFormer和DualHR表现也不错,但在处理跨城市场景的复杂性时表现出一些局限性。在RSGPT [148]中,RSGPT在图像描述和视觉问答任务中领先,展示了在生成准确和详细描述以及回答有关遥感图像复杂问题方面的明显优势。其他模型如InstructBLIP和BLIP2表现中等,但在处理遥感数据复杂性方面表现出明显差距。MiniGPT4表现最差,特别是在保持输出的相关性和准确性方面表现不佳。遥感任务在MLLM评估中至关重要,因为它们测试了模型整合和分析复杂多模态数据的能力,这对于环境监测和城市规划至关重要。在这些任务中取得成功表明了模型处理大规模高分辨率遥感数据并根据多样化信息源做出明智决策的能力。 音频指的是设计用于评估模型理解、解释和生成基于音频信号的响应的特定任务。这些任务涉及各种类型的音频数据,包括人类语音、自然声音和音乐,并评估模型处理和与这些听觉信息交互的能力。在AIR-Bench [150]中,Qwen-Audio Turbo和Qwen-Audio-Chat在音频任务中的整体表现最佳,表现出在基础音频理解和复杂交互方面的强大能力。SALMONN和BLSP表现也不错,特别是在处理聊天基准中的混合音频方面。PandaGPT虽然在某些领域表现出色,但在任务上表现不稳定,表明在处理更复杂的音频交互时仍有改进空间。在Dynamic-superb [151]中,Whisper-LLM和ImageBind-LLM在见过和未见过的音频任务上表现强劲,特别是在说话人识别和副语言学方面表现出色。Whisper在内容相关任务中表现出色,但在推广到新音频任务上表现较为困难。BERT-GSLM和ASR-ChatGPT表现中等,在未见过的音频任务中表现出显著的弱点,突显了这些模型在适应新场景方面面临的挑战。在MuChoMusic [152]中,Qwen-Audio在音频任务中的表现领先,特别是在音乐理解的知识和推理维度上表现出色。M2UGen和SALMONN也表现良好,在各自的重点领域中表现强劲。像MuLLaMa和MusiLingo这样的模型表现较低,突显了这些模型在充分利用多模态音频输入以实现强大音乐理解方面面临的挑战。通过检查音频任务中的准确率和F1得分等表现指标,研究人员和从业者可以评估不同MLLMs在处理和解释听觉信息方面的能力。这种能力对于需要理解和响应复杂听觉线索的多模态应用(如语音识别、音乐分析和基于声音的决策系统)至关重要。
为了全面评估多模态大语言模型(MLLMs)的性能和能力,已经开发了各种基准测试。这些基准测试评估了一系列任务,从一般的多模态理解到特定的任务导向评估。在本节中,我们介绍了这些基准测试,分为两类:一般基准测试,提供跨多个任务的广泛评估,以及专门基准测试,侧重于多模态模型性能的特定方面。
一般基准测试旨在提供对MLLMs在各种任务中的综合评估,包括识别、推理和可信度。这些基准测试不仅评估模型的核心能力,还评估其可靠性和伦理考量,这对于将AI系统部署到现实场景中至关重要。例如,MMBench [21]评估MLLMs在基本识别任务中的表现,包括概念识别、属性识别和动作识别。它提供了一个全面的框架,用于评估模型准确处理和理解视觉和文本信息的能力。MM-Vet [22]侧重于模型的鲁棒性和泛化能力,评估模型在不同条件下的表现,确保模型不过度依赖于特定数据集或场景。Seed-Bench [1]评估模型基于多模态输入生成上下文相关和连贯输出的能力,使其成为生成模型的一个重要基准测试。MME [23]提供了对MLLMs的广泛评估,涵盖了需要推理、感知和识别的任务。TouchStone [31]评估了模型在多个任务中的表现,提供了对其在各种多模态场景中表现的细致理解。MMStar [24]侧重于结构化推理,评估模型在不同模态中进行逻辑推理的能力,确保多模态解释的连贯性和准确性。LogicVista [34]测试多模态框架中的逻辑推理,挑战模型导航复杂关系并生成逻辑一致的输出的能力。 此外,还提出了几个用于评估MLLMs可信度的基准测试。例如,POPE [93]专门评估大型视觉-语言模型中的对象幻觉。它评估了模型在响应视觉输入时生成不正确对象的频率和严重性,帮助识别和减轻模型输出中与幻觉相关的问题。CHEF [87]提供了一个标准化的评估框架,用于评估MLLMs在一系列任务中的表现。它旨在提供一致且彻底的评估,确保模型符合既定的有效性和可信度标准。Multi-Trust [92]通过评估模型在公平性、偏见和伦理考量方面的表现,来评估MLLMs的可信度。 一般基准测试是评估MLLMs整体性能和可靠性的有效工具。它们确保模型能够处理多样化任务,同时保持高标准的可信度,使其适用于广泛的应用。通过全面的评估,这些基准测试在推动稳健和伦理多模态模型的发展中发挥了关键作用。
专门基准测试旨在评估MLLMs在特定任务或领域中的表现,通常侧重于需要专业评估的领域,如社会经济、科学、医学任务和其他应用。这些基准测试提供了对模型特定能力的详细见解。 CVQA [111]专注于跨文化视觉问答,评估模型在多样化文化背景下解释和回答问题的能力。TransportationGames [114]基准测试评估模型在交通相关知识上的表现,测试它们在与交通相关的场景中解释和应用信息的能力,强调实用推理和基于场景的理解。MathVerse [115]引入了一个综合的视觉数学基准,旨在严格评估MLLMs的数学推理能力。ScienceQA [124]专门设计用于评估MLLMs执行科学问答任务的能力,这些任务需要多模态推理和链式思维(CoT)解释。GMAI-MMBench [133]提供了一个专门用于评估MLLMs在医学领域表现的基准。 专门基准测试提供了对于确保MLLMs能够在各种专业领域中表现出色至关重要的评估。通过聚焦这些特定领域,如数学、科学、工程以及涉及医学、3D点云和视频数据的应用,这些基准测试补充了一般基准测试,提供了对模型能力的更深入见解,确保其在多样化应用中的可靠性和有效性。
在本节中,我们介绍了MLLMs评估中常用的设置和任务,包括人工评估、GPT-4评估和指标评估。
人工评估 [25]在评估MLLMs的能力中起着至关重要的作用,尤其是对于那些需要高水平理解且难以通过传统指标量化的任务。人工评估允许在多个维度上对MLLMs进行全面评估,包括:(1) 相关性:评估响应是否与预期指令一致;(2) 连贯性:确定响应是否在逻辑上结构合理且一致;(3) 流畅性:评估生成的输出是否自然且语法正确。
尽管人工评估提供了有价值的见解,但它往往资源密集。为了解决这一问题,最近的一些研究 [25]利用了GPT-4 [181]的高级指令遵循能力,作为评估模型生成输出质量的有效替代方法。GPT-4根据帮助性、相关性、准确性和细节等关键维度评估MLLMs,评分范围为1到10,分数越高表示性能越优。此外,GPT-4可以为其评估提供详细解释,提供对模型优势和改进领域的细致理解。
虽然人工评估和GPT-4评估提供了定性见解,但传统评估指标对于定量评估MLLMs的性能仍然至关重要。这些指标提供了标准化和客观的衡量标准,使其成为在不同任务中比较模型的可靠基准。具体来说,为了评估模型的识别能力,采用了多种指标,如准确率和平均精度 [1],[182],[183];而为了评估模型的感知能力,采用了如mIoU、mAP和Dice等指标 [184]。此外,为了评估模型生成文本或图像的能力,广泛采用了如BLEU、ROUGE和METEOR等指标 [185],[186],这些指标清楚地指示了模型在各种应用中的性能。
多模态大语言模型通过将强大的LLMs与各种模态编码器(如视觉、音频等)结合在一起,模仿了人类的感知系统,使模型具备了类似人类的能力,并暗示了实现人工通用智能的潜在途径。随着我们朝着AGI级别的MLLMs迈进,评估在其研究、开发和部署中起着至关重要的作用。在这篇综述中,我们从不同角度广泛回顾了MLLMs的评估方法,从背景到评估什么、在哪里评估以及如何评估。通过总结评估任务、基准测试和指标,我们的目标是增强对当前MLLMs状态的理解,阐明其贡献、优势和局限性,并为未来MLLMs及其评估的研究提供见解。