多模态大语言模型 - 专知VIP

会员服务 ·

45

多模态大型语言模型 · 大语言模型 ·

2024 年 6 月 25 日

多模态大语言模型

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

最近，我在IndabaX Rwanda和卡内基梅隆大学(学号为18-661)的“工程师机器学习导论”课程中的学生研究讲座上进行了关于多模态大语言模型(LLM)的演讲。在演讲中，我们详细剖析了多模态LLM、多模态任务以及一般的多模态LLM架构。大多数多模态LLM几乎都有非常相似的架构：视觉编码器用于获取图像嵌入（如CLIP-ViT或SigLIP），连接器/投影器用于将图像标记映射到LLM维度空间（例如：线性层/MLP/注意力层），以及用于生成的底层LLM（通常是解码器类型的语言模型）。我们还介绍了一些代表性模型：CLIP为基础奠定了基础，Flamingo启发了图像-文本交错和视觉语言模型中的上下文学习，LLaVA引入了视觉指令调优，在许多多模态基准测试中实现了最先进的性能。最后，我们讨论了基准测试、开源模型与闭源模型的对比、当前的挑战以及我对多模态LLM的期望清单。

成为VIP会员查看完整内容

92

相关内容

多模态大型语言模型

多模态大型语言模型

数据与多模态大型语言模型的协同作用综述

数据与多模态大型语言模型的协同作用综述

专知会员服务

56+阅读 · 2024年7月13日

大语言模型的终身学习综述

大语言模型的终身学习综述

专知会员服务

74+阅读 · 2024年6月15日

从数据中心视角看多模态大型语言模型的综述

从数据中心视角看多模态大型语言模型的综述

专知会员服务

57+阅读 · 2024年5月28日

时间序列基础模型综述：用大型语言模型推广时间序列表征

时间序列基础模型综述：用大型语言模型推广时间序列表征

专知会员服务

68+阅读 · 2024年5月11日

大型语言模型供应链

大型语言模型供应链

专知会员服务

44+阅读 · 2024年4月29日

大型语言模型对齐

大型语言模型对齐

专知会员服务

118+阅读 · 2023年9月27日

使用多模态语言模型生成图像

使用多模态语言模型生成图像

专知会员服务

32+阅读 · 2023年8月23日

多模态深度学习

多模态深度学习

专知会员服务

135+阅读 · 2023年1月15日

【ICML2021】基于低秩重参数化的大规模私有学习

专知会员服务

12+阅读 · 2021年6月20日

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

专知会员服务

48+阅读 · 2020年9月28日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

Python程序员

21+阅读 · 2019年10月28日

初学者的 Keras：实现卷积神经网络

初学者的 Keras：实现卷积神经网络

Python程序员

24+阅读 · 2019年9月8日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

73+阅读 · 2017年11月8日

MNIST入门：贝叶斯方法

MNIST入门：贝叶斯方法

Python程序员

23+阅读 · 2017年7月3日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

半参数空间自回归模型的理论研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

随机机械系统的建模和控制问题

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

A psychological theory of explainability

Arxiv

16+阅读 · 2022年5月17日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

VIP会员

相关主题

多模态大型语言模型

大语言模型

相关VIP内容

数据与多模态大型语言模型的协同作用综述

数据与多模态大型语言模型的协同作用综述

专知会员服务

56+阅读 · 2024年7月13日

大语言模型的终身学习综述

大语言模型的终身学习综述

专知会员服务

74+阅读 · 2024年6月15日

从数据中心视角看多模态大型语言模型的综述

从数据中心视角看多模态大型语言模型的综述

专知会员服务

57+阅读 · 2024年5月28日

时间序列基础模型综述：用大型语言模型推广时间序列表征

时间序列基础模型综述：用大型语言模型推广时间序列表征

专知会员服务

68+阅读 · 2024年5月11日

大型语言模型供应链

大型语言模型供应链

专知会员服务

44+阅读 · 2024年4月29日

大型语言模型对齐

大型语言模型对齐

专知会员服务

118+阅读 · 2023年9月27日

使用多模态语言模型生成图像

使用多模态语言模型生成图像

专知会员服务

32+阅读 · 2023年8月23日

多模态深度学习

多模态深度学习

专知会员服务

135+阅读 · 2023年1月15日

【ICML2021】基于低秩重参数化的大规模私有学习

专知会员服务

12+阅读 · 2021年6月20日

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

专知会员服务

48+阅读 · 2020年9月28日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

Python程序员

21+阅读 · 2019年10月28日

初学者的 Keras：实现卷积神经网络

初学者的 Keras：实现卷积神经网络

Python程序员

24+阅读 · 2019年9月8日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

73+阅读 · 2017年11月8日

MNIST入门：贝叶斯方法

MNIST入门：贝叶斯方法

Python程序员

23+阅读 · 2017年7月3日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

相关基金

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

半参数空间自回归模型的理论研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

随机机械系统的建模和控制问题

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

相关论文

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

A psychological theory of explainability

Arxiv

16+阅读 · 2022年5月17日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

微信扫码咨询专知VIP会员