最近,我在IndabaX Rwanda和卡内基梅隆大学(学号为18-661)的“工程师机器学习导论”课程中的学生研究讲座上进行了关于多模态大语言模型(LLM)的演讲。在演讲中,我们详细剖析了多模态LLM、多模态任务以及一般的多模态LLM架构。大多数多模态LLM几乎都有非常相似的架构:视觉编码器用于获取图像嵌入(如CLIP-ViT或SigLIP),连接器/投影器用于将图像标记映射到LLM维度空间(例如:线性层/MLP/注意力层),以及用于生成的底层LLM(通常是解码器类型的语言模型)。我们还介绍了一些代表性模型:CLIP为基础奠定了基础,Flamingo启发了图像-文本交错和视觉语言模型中的上下文学习,LLaVA引入了视觉指令调优,在许多多模态基准测试中实现了最先进的性能。最后,我们讨论了基准测试、开源模型与闭源模型的对比、当前的挑战以及我对多模态LLM的期望清单。

成为VIP会员查看完整内容
81

相关内容

数据与多模态大型语言模型的协同作用综述
专知会员服务
49+阅读 · 7月13日
大语言模型的终身学习综述
专知会员服务
63+阅读 · 6月15日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
53+阅读 · 5月28日
大型语言模型供应链
专知会员服务
42+阅读 · 4月29日
大型语言模型对齐
专知会员服务
114+阅读 · 2023年9月27日
使用多模态语言模型生成图像
专知会员服务
31+阅读 · 2023年8月23日
多模态深度学习
专知会员服务
133+阅读 · 2023年1月15日
专知会员服务
11+阅读 · 2021年6月20日
【NeurIPS2020】可处理的反事实推理的深度结构因果模型
专知会员服务
47+阅读 · 2020年9月28日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
19+阅读 · 2019年10月28日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2008年12月31日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
16+阅读 · 2022年5月17日
Arxiv
18+阅读 · 2021年3月16日
VIP会员
相关VIP内容
数据与多模态大型语言模型的协同作用综述
专知会员服务
49+阅读 · 7月13日
大语言模型的终身学习综述
专知会员服务
63+阅读 · 6月15日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
53+阅读 · 5月28日
大型语言模型供应链
专知会员服务
42+阅读 · 4月29日
大型语言模型对齐
专知会员服务
114+阅读 · 2023年9月27日
使用多模态语言模型生成图像
专知会员服务
31+阅读 · 2023年8月23日
多模态深度学习
专知会员服务
133+阅读 · 2023年1月15日
专知会员服务
11+阅读 · 2021年6月20日
【NeurIPS2020】可处理的反事实推理的深度结构因果模型
专知会员服务
47+阅读 · 2020年9月28日
相关资讯
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
19+阅读 · 2019年10月28日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
相关基金
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员