【报告】多模态大型语言模型综述，30页ppt - 专知VIP

会员服务 ·

40

多模态大模型 ·

2024 年 8 月 29 日

【报告】多模态大型语言模型综述，30页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

最近，我在IndabaX Rwanda和卡内基梅隆大学（CMU）学生研究讲座的“18-661 工程师机器学习导论”课程中进行了关于多模态大语言模型（LLMs）的演讲。在演讲中，我们剖析了多模态大语言模型、多模态任务以及通用的多模态LLM架构。大多数多模态LLM的架构几乎非常相似：包括用于获取图像嵌入的视觉编码器（如CLIP-ViT或SigLIP），用于将图像标记映射到LLM维度空间的连接器/投影器（例如线性层/MLP/注意力层），以及用于生成的底层LLM（通常是解码器类型的语言模型）。我们还探讨了具有代表性的模型：如CLIP，它奠定了基础，Flamingo则启发了图像-文本交替和视觉语言模型中的上下文学习，而LLaVA引入了视觉指令微调，在许多多模态基准测试中达到了SOTA（最新的技术水平）。最后，我们讨论了基准测试、开源与闭源模型的对比、当前面临的挑战以及我对多模态LLM的愿望清单。

成为VIP会员查看完整内容

69

相关内容

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

专知会员服务

34+阅读 · 2024年8月14日

【PODS2023】从查询语言的视角看图学习，111页ppt

【PODS2023】从查询语言的视角看图学习，111页ppt

专知会员服务

26+阅读 · 2023年7月22日

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

专知会员服务

45+阅读 · 2023年5月16日

【干货书】计算优化:实践中的成功，415页pdf

【干货书】计算优化:实践中的成功，415页pdf

专知会员服务

70+阅读 · 2022年12月29日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知会员服务

78+阅读 · 2022年8月19日

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

专知会员服务

24+阅读 · 2022年7月29日

【干货书】开放数据结构，Open Data Structures，337页pdf

【干货书】开放数据结构，Open Data Structures，337页pdf

专知会员服务

17+阅读 · 2021年9月17日

【哈佛大学】最新《理解模型可解释性》综述报告，45页ppt

专知会员服务

77+阅读 · 2020年12月4日

【普林斯顿】最新《监督学习数学视角理解》报告，64页ppt

【普林斯顿】最新《监督学习数学视角理解》报告，64页ppt

专知会员服务

45+阅读 · 2020年11月30日

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

专知会员服务

27+阅读 · 2020年11月10日

【2023新书】机器学习集成方法，354页pdf

【2023新书】机器学习集成方法，354页pdf

专知

40+阅读 · 2023年4月11日

《基于模型的系统工程方法应用于任务工程建模用例》169页报告

《基于模型的系统工程方法应用于任务工程建模用例》169页报告

专知

56+阅读 · 2023年4月6日

【干货书】优化算法，232页pdf

【干货书】优化算法，232页pdf

专知

26+阅读 · 2022年9月8日

【干货书】Pytorch创建和部署深度学习应用，294页pdf

【干货书】Pytorch创建和部署深度学习应用，294页pdf

专知

41+阅读 · 2022年3月18日

【干货书】《机器学习动力系统与控制》，572页pdf

【干货书】《机器学习动力系统与控制》，572页pdf

专知

35+阅读 · 2022年1月8日

【干货书】高维统计学，572页pdf

【干货书】高维统计学，572页pdf

专知

19+阅读 · 2021年12月3日

【干货书】概率，统计与数据，513页pdf

【干货书】概率，统计与数据，513页pdf

专知

36+阅读 · 2021年11月27日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

拓扑非线性分析专题讲习班

国家自然科学基金

15+阅读 · 2016年12月31日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

面向大规模分布式一致性最优化问题的结构型一阶求解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

478+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

174+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

多模态大模型

相关VIP内容

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

专知会员服务

34+阅读 · 2024年8月14日

【PODS2023】从查询语言的视角看图学习，111页ppt

【PODS2023】从查询语言的视角看图学习，111页ppt

专知会员服务

26+阅读 · 2023年7月22日

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

专知会员服务

45+阅读 · 2023年5月16日

【干货书】计算优化:实践中的成功，415页pdf

【干货书】计算优化:实践中的成功，415页pdf

专知会员服务

70+阅读 · 2022年12月29日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知会员服务

78+阅读 · 2022年8月19日

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

专知会员服务

24+阅读 · 2022年7月29日

【干货书】开放数据结构，Open Data Structures，337页pdf

【干货书】开放数据结构，Open Data Structures，337页pdf

专知会员服务

17+阅读 · 2021年9月17日

【哈佛大学】最新《理解模型可解释性》综述报告，45页ppt

专知会员服务

77+阅读 · 2020年12月4日

【普林斯顿】最新《监督学习数学视角理解》报告，64页ppt

【普林斯顿】最新《监督学习数学视角理解》报告，64页ppt

专知会员服务

45+阅读 · 2020年11月30日

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

专知会员服务

27+阅读 · 2020年11月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

【2023新书】机器学习集成方法，354页pdf

【2023新书】机器学习集成方法，354页pdf

专知

40+阅读 · 2023年4月11日

《基于模型的系统工程方法应用于任务工程建模用例》169页报告

《基于模型的系统工程方法应用于任务工程建模用例》169页报告

专知

56+阅读 · 2023年4月6日

【干货书】优化算法，232页pdf

【干货书】优化算法，232页pdf

专知

26+阅读 · 2022年9月8日

【干货书】Pytorch创建和部署深度学习应用，294页pdf

【干货书】Pytorch创建和部署深度学习应用，294页pdf

专知

41+阅读 · 2022年3月18日

【干货书】《机器学习动力系统与控制》，572页pdf

【干货书】《机器学习动力系统与控制》，572页pdf

专知

35+阅读 · 2022年1月8日

【干货书】高维统计学，572页pdf

【干货书】高维统计学，572页pdf

专知

19+阅读 · 2021年12月3日

【干货书】概率，统计与数据，513页pdf

【干货书】概率，统计与数据，513页pdf

专知

36+阅读 · 2021年11月27日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

相关基金

拓扑非线性分析专题讲习班

国家自然科学基金

15+阅读 · 2016年12月31日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

面向大规模分布式一致性最优化问题的结构型一阶求解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

478+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

174+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员