最近,我在IndabaX Rwanda和卡内基梅隆大学(CMU)学生研究讲座的“18-661 工程师机器学习导论”课程中进行了关于多模态大语言模型(LLMs)的演讲。 在演讲中,我们剖析了多模态大语言模型、多模态任务以及通用的多模态LLM架构。大多数多模态LLM的架构几乎非常相似:包括用于获取图像嵌入的视觉编码器(如CLIP-ViT或SigLIP),用于将图像标记映射到LLM维度空间的连接器/投影器(例如线性层/MLP/注意力层),以及用于生成的底层LLM(通常是解码器类型的语言模型)。 我们还探讨了具有代表性的模型:如CLIP,它奠定了基础,Flamingo则启发了图像-文本交替和视觉语言模型中的上下文学习,而LLaVA引入了视觉指令微调,在许多多模态基准测试中达到了SOTA(最新的技术水平)。 最后,我们讨论了基准测试、开源与闭源模型的对比、当前面临的挑战以及我对多模态LLM的愿望清单。

成为VIP会员查看完整内容
40

相关内容

【PODS2023】从查询语言的视角看图学习,111页ppt
专知会员服务
25+阅读 · 2023年7月22日
【干货书】计算优化:实践中的成功,415页pdf
专知会员服务
67+阅读 · 2022年12月29日
【KDD2022教程】多模态自动机器学习教程,130页ppt
专知会员服务
76+阅读 · 2022年8月19日
【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
16+阅读 · 2021年9月17日
【2023新书】机器学习集成方法,354页pdf
专知
37+阅读 · 2023年4月11日
【干货书】优化算法,232页pdf
专知
24+阅读 · 2022年9月8日
【干货书】高维统计学,572页pdf
专知
14+阅读 · 2021年12月3日
【干货书】概率,统计与数据,513页pdf
专知
31+阅读 · 2021年11月27日
国家自然科学基金
12+阅读 · 2016年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
148+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
377+阅读 · 2023年3月31日
Arxiv
64+阅读 · 2023年3月26日
Arxiv
133+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【PODS2023】从查询语言的视角看图学习,111页ppt
专知会员服务
25+阅读 · 2023年7月22日
【干货书】计算优化:实践中的成功,415页pdf
专知会员服务
67+阅读 · 2022年12月29日
【KDD2022教程】多模态自动机器学习教程,130页ppt
专知会员服务
76+阅读 · 2022年8月19日
【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
16+阅读 · 2021年9月17日
相关基金
国家自然科学基金
12+阅读 · 2016年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员