大规模视觉-语言模型的基准、评估、应用与挑战 - 专知VIP

会员服务 ·

15

视觉语言模型 · 多模态视觉语言模型 ·

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

多模态视觉语言模型（VLMs）作为一种变革性技术，出现在计算机视觉与自然语言处理的交叉领域，使得机器能够通过视觉和文本两种模态感知和推理世界。例如，像CLIP [213]、Claude [10] 和 GPT-4V [276] 等模型，在视觉和文本数据上展示了强大的推理和理解能力，并在零-shot 分类任务中超过了传统的单模态视觉模型 [108]。尽管在研究中的快速进展和在应用中的日益普及，关于VLM的现有研究的综合综述仍然显著缺乏，特别是对于那些希望在特定领域利用VLM的研究者。为此，我们在以下几个方面提供了VLM的系统性概述：[1] 过去五年（2019-2024）中开发的主要VLM模型的信息；[2] 这些VLM的主要架构和训练方法；[3] 对VLM的流行基准和评估指标的总结和分类；[4] VLM的应用，包括具身智能体、机器人技术和视频生成；[5] 当前VLM面临的挑战和问题，如幻觉、 fairness（公平性）和安全性。详细的文献和模型库链接收集可见于 https://github.com/zli12321/Awesome-VLM-Papers-And-Models.git。预训练的大型语言模型（LLMs），如LLaMA [237] 和 GPT-4 [199]，在广泛的自然语言处理（NLP）任务中取得了显著成功 [173, 184]。然而，随着这些模型的不断扩展 [191]，它们面临着两个挑战：（1）高质量文本数据的有限供应 [241, 142]；（2）单一模态架构在捕捉和处理需要理解不同模态之间复杂关系的现实世界信息时的固有限制 [73, 95]。这些局限性促使了对视觉语言模型（VLMs）的探索和开发，VLM结合了视觉（例如图像、视频）和文本输入，提供了更全面的理解，能够理解视觉空间关系、物体、场景和抽象概念 [22, 85]。VLM突破了此前单模态方法的表示边界，支持了更丰富、更加具有上下文信息的世界观 [59, 244, 168]，例如视觉问答（VQA）[4]、自动驾驶 [235]。与此同时，VLM遇到了与单模态模型不同的新挑战，例如视觉幻觉，当VLM生成响应时，没有进行有意义的视觉理解，而是主要依赖存储在LLM组件中的参数知识 [76, 152]。目前已经有若干关于单模态模型的综述 [190, 30]，但多模态模型的综述仍然缺乏。在本文中，我们对VLM的研究成果进行了批判性审视，系统地回顾了当前主要的VLM架构、评估与基准、应用以及VLM面临的挑战。

成为VIP会员查看完整内容

18

相关内容

视觉语言模型

视觉语言模型

高效集成大语言模型与视觉感知：从训练范式的视角进行综述

高效集成大语言模型与视觉感知：从训练范式的视角进行综述

专知会员服务

27+阅读 · 2月5日

多智能体协作机制：大语言模型综述

多智能体协作机制：大语言模型综述

专知会员服务

63+阅读 · 1月14日

大型视觉语言模型中幻觉现象的综述

大型视觉语言模型中幻觉现象的综述

专知会员服务

46+阅读 · 2024年10月24日

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

专知会员服务

28+阅读 · 2024年10月2日

迁移学习在计算机视觉问题中的应用：当前进展、局限性与机会综述

迁移学习在计算机视觉问题中的应用：当前进展、局限性与机会综述

专知会员服务

15+阅读 · 2024年9月13日

通用多模态人工智能：架构、挑战和机遇综述

通用多模态人工智能：架构、挑战和机遇综述

专知会员服务

51+阅读 · 2024年6月29日

探索视觉语言模型的前沿：当前方法和未来方向的综述

探索视觉语言模型的前沿：当前方法和未来方向的综述

专知会员服务

47+阅读 · 2024年4月12日

基于大型语言模型的多智能体：进展与挑战综述

基于大型语言模型的多智能体：进展与挑战综述

专知会员服务

127+阅读 · 2024年2月6日

多模态学习有哪些架构？MBZUAI最新《多模态表示学习》综述，29页:演化、预训练及其应用综述

多模态学习有哪些架构？MBZUAI最新《多模态表示学习》综述，29页:演化、预训练及其应用综述

专知会员服务

67+阅读 · 2023年2月5日

可解释的自然语言处理方法简介

专知会员服务

81+阅读 · 2021年5月30日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

20+阅读 · 2022年7月16日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

34+阅读 · 2022年7月1日

深度学习图像检索(CBIR): 十年之大综述

深度学习图像检索(CBIR): 十年之大综述

专知

66+阅读 · 2020年12月5日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

综述：基于GAN的图像翻译模型盘点

综述：基于GAN的图像翻译模型盘点

GAN生成式对抗网络

21+阅读 · 2019年9月2日

深度学习与医学图像分析

深度学习与医学图像分析

人工智能前沿讲习班

40+阅读 · 2019年6月8日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

深度学习与计算机视觉任务应用综述

深度学习与计算机视觉任务应用综述

深度学习与NLP

50+阅读 · 2018年12月18日

一文详解深度学习在命名实体识别(NER)中的应用

一文详解深度学习在命名实体识别(NER)中的应用

AINLP

24+阅读 · 2018年10月23日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

20+阅读 · 2018年9月26日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

材料与加工敏感的形状分析与建模

国家自然科学基金

0+阅读 · 2015年12月31日

精神分裂症的多尺度动态功能连接研究

国家自然科学基金

3+阅读 · 2015年12月31日

动态异质大图匹配模型及算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Queue management for slo-oriented large language model serving

Arxiv

0+阅读 · 2月25日

Enhancing medical vision-language contrastive learning via inter-matching relation modelling

Arxiv

0+阅读 · 2月7日

MNE: overparametrized neural evolution with applications to diffusion processes and sampling

Arxiv

0+阅读 · 2月5日

Simulation of microstructures and machine learning

Arxiv

0+阅读 · 1月30日

Modernizing full posterior inference for surrogate modeling of categorical-output simulation experiments

Arxiv

0+阅读 · 1月24日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

视觉语言模型

多模态视觉语言模型

相关VIP内容

高效集成大语言模型与视觉感知：从训练范式的视角进行综述

高效集成大语言模型与视觉感知：从训练范式的视角进行综述

专知会员服务

27+阅读 · 2月5日

多智能体协作机制：大语言模型综述

多智能体协作机制：大语言模型综述

专知会员服务

63+阅读 · 1月14日

大型视觉语言模型中幻觉现象的综述

大型视觉语言模型中幻觉现象的综述

专知会员服务

46+阅读 · 2024年10月24日

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

专知会员服务

28+阅读 · 2024年10月2日

迁移学习在计算机视觉问题中的应用：当前进展、局限性与机会综述

迁移学习在计算机视觉问题中的应用：当前进展、局限性与机会综述

专知会员服务

15+阅读 · 2024年9月13日

通用多模态人工智能：架构、挑战和机遇综述

通用多模态人工智能：架构、挑战和机遇综述

专知会员服务

51+阅读 · 2024年6月29日

探索视觉语言模型的前沿：当前方法和未来方向的综述

探索视觉语言模型的前沿：当前方法和未来方向的综述

专知会员服务

47+阅读 · 2024年4月12日

基于大型语言模型的多智能体：进展与挑战综述

基于大型语言模型的多智能体：进展与挑战综述

专知会员服务

127+阅读 · 2024年2月6日

多模态学习有哪些架构？MBZUAI最新《多模态表示学习》综述，29页:演化、预训练及其应用综述

多模态学习有哪些架构？MBZUAI最新《多模态表示学习》综述，29页:演化、预训练及其应用综述

专知会员服务

67+阅读 · 2023年2月5日

可解释的自然语言处理方法简介

专知会员服务

81+阅读 · 2021年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

20+阅读 · 2022年7月16日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

34+阅读 · 2022年7月1日

深度学习图像检索(CBIR): 十年之大综述

深度学习图像检索(CBIR): 十年之大综述

专知

66+阅读 · 2020年12月5日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

综述：基于GAN的图像翻译模型盘点

综述：基于GAN的图像翻译模型盘点

GAN生成式对抗网络

21+阅读 · 2019年9月2日

深度学习与医学图像分析

深度学习与医学图像分析

人工智能前沿讲习班

40+阅读 · 2019年6月8日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

深度学习与计算机视觉任务应用综述

深度学习与计算机视觉任务应用综述

深度学习与NLP

50+阅读 · 2018年12月18日

一文详解深度学习在命名实体识别(NER)中的应用

一文详解深度学习在命名实体识别(NER)中的应用

AINLP

24+阅读 · 2018年10月23日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

20+阅读 · 2018年9月26日

相关基金

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

材料与加工敏感的形状分析与建模

国家自然科学基金

0+阅读 · 2015年12月31日

精神分裂症的多尺度动态功能连接研究

国家自然科学基金

3+阅读 · 2015年12月31日

动态异质大图匹配模型及算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

相关论文

Queue management for slo-oriented large language model serving

Arxiv

0+阅读 · 2月25日

Enhancing medical vision-language contrastive learning via inter-matching relation modelling

Arxiv

0+阅读 · 2月7日

MNE: overparametrized neural evolution with applications to diffusion processes and sampling

Arxiv

0+阅读 · 2月5日

Simulation of microstructures and machine learning

Arxiv

0+阅读 · 1月30日

Modernizing full posterior inference for surrogate modeling of categorical-output simulation experiments

Arxiv

0+阅读 · 1月24日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员