多模态视觉语言模型(VLMs)作为一种变革性技术,出现在计算机视觉与自然语言处理的交叉领域,使得机器能够通过视觉和文本两种模态感知和推理世界。例如,像CLIP [213]、Claude [10] 和 GPT-4V [276] 等模型,在视觉和文本数据上展示了强大的推理和理解能力,并在零-shot 分类任务中超过了传统的单模态视觉模型 [108]。尽管在研究中的快速进展和在应用中的日益普及,关于VLM的现有研究的综合综述仍然显著缺乏,特别是对于那些希望在特定领域利用VLM的研究者。为此,我们在以下几个方面提供了VLM的系统性概述:[1] 过去五年(2019-2024)中开发的主要VLM模型的信息;[2] 这些VLM的主要架构和训练方法;[3] 对VLM的流行基准和评估指标的总结和分类;[4] VLM的应用,包括具身智能体、机器人技术和视频生成;[5] 当前VLM面临的挑战和问题,如幻觉、 fairness(公平性)和安全性。详细的文献和模型库链接收集可见于 https://github.com/zli12321/Awesome-VLM-Papers-And-Models.git。 预训练的大型语言模型(LLMs),如LLaMA [237] 和 GPT-4 [199],在广泛的自然语言处理(NLP)任务中取得了显著成功 [173, 184]。然而,随着这些模型的不断扩展 [191],它们面临着两个挑战:(1)高质量文本数据的有限供应 [241, 142];(2)单一模态架构在捕捉和处理需要理解不同模态之间复杂关系的现实世界信息时的固有限制 [73, 95]。这些局限性促使了对视觉语言模型(VLMs)的探索和开发,VLM结合了视觉(例如图像、视频)和文本输入,提供了更全面的理解,能够理解视觉空间关系、物体、场景和抽象概念 [22, 85]。VLM突破了此前单模态方法的表示边界,支持了更丰富、更加具有上下文信息的世界观 [59, 244, 168],例如视觉问答(VQA)[4]、自动驾驶 [235]。与此同时,VLM遇到了与单模态模型不同的新挑战,例如视觉幻觉,当VLM生成响应时,没有进行有意义的视觉理解,而是主要依赖存储在LLM组件中的参数知识 [76, 152]。目前已经有若干关于单模态模型的综述 [190, 30],但多模态模型的综述仍然缺乏。在本文中,我们对VLM的研究成果进行了批判性审视,系统地回顾了当前主要的VLM架构、评估与基准、应用以及VLM面临的挑战。

成为VIP会员查看完整内容
17

相关内容

多智能体协作机制:大语言模型综述
专知会员服务
49+阅读 · 1月14日
大型视觉语言模型中幻觉现象的综述
专知会员服务
45+阅读 · 2024年10月24日
通用多模态人工智能:架构、挑战和机遇综述
专知会员服务
49+阅读 · 2024年6月29日
探索视觉语言模型的前沿:当前方法和未来方向的综述
专知会员服务
44+阅读 · 2024年4月12日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
114+阅读 · 2024年2月6日
专知会员服务
79+阅读 · 2021年5月30日
数据受限条件下的多模态处理技术综述
专知
17+阅读 · 2022年7月16日
综述| 当图神经网络遇上强化学习
图与推荐
31+阅读 · 2022年7月1日
深度学习图像检索(CBIR): 十年之大综述
专知
65+阅读 · 2020年12月5日
综述:基于GAN的图像翻译模型盘点
GAN生成式对抗网络
21+阅读 · 2019年9月2日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
A Survey of Large Language Models
Arxiv
431+阅读 · 2023年3月31日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
多智能体协作机制:大语言模型综述
专知会员服务
49+阅读 · 1月14日
大型视觉语言模型中幻觉现象的综述
专知会员服务
45+阅读 · 2024年10月24日
通用多模态人工智能:架构、挑战和机遇综述
专知会员服务
49+阅读 · 2024年6月29日
探索视觉语言模型的前沿:当前方法和未来方向的综述
专知会员服务
44+阅读 · 2024年4月12日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
114+阅读 · 2024年2月6日
专知会员服务
79+阅读 · 2021年5月30日
相关资讯
数据受限条件下的多模态处理技术综述
专知
17+阅读 · 2022年7月16日
综述| 当图神经网络遇上强化学习
图与推荐
31+阅读 · 2022年7月1日
深度学习图像检索(CBIR): 十年之大综述
专知
65+阅读 · 2020年12月5日
综述:基于GAN的图像翻译模型盘点
GAN生成式对抗网络
21+阅读 · 2019年9月2日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员