【ICML2023】BLIP-2:基于冻结图像编码器和大型语言模型的Bootstrapping语言-图像预训练 - 专知VIP

会员服务 ·

17

ICML 2023 · BLIP-2 · 大模型 ·

2023 年 5 月 1 日

【ICML2023】BLIP-2:基于冻结图像编码器和大型语言模型的Bootstrapping语言-图像预训练

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

由于大规模模型的端到端训练，视觉和语言预训练的成本变得越来越令人望而却步。本文提出BLIP-2，一种通用而有效的预训练策略，从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉-语言预训练。BLIP-2通过一个轻量级的查询Transformer弥合了模式差距，该Transformer分两个阶段进行预训练。第一阶段从冻结的图像编码器中引导视觉-语言表示学习。第二阶段从一个冻结的语言模型中引导视觉到语言的生成学习。BLIP-2在各种视觉语言任务上取得了最先进的性能，尽管可训练参数比现有方法少得多。例如，所提出模型在零样本VQAv2上的表现比Flamingo80B高出8.7%，可训练参数减少了54倍。还展示了该模型的零样本图像到文本生成的新兴能力，可以遵循自然语言指令。

https://www.zhuanzhi.ai/paper/07f6ce13e18cd1dc714cf3d3f88d1e56

成为VIP会员查看完整内容

30

相关内容

ICML 2023

国际机器学习大会(International Conference on Machine Learning，简称ICML ) 是由国际机器学习学会（IMLS）主办的机器学习国际顶级会议。 2023年7月23日至29日周六在夏威夷会议中心举行。

【ICML2023】终身语言预训练与分布式专业化专家

【ICML2023】终身语言预训练与分布式专业化专家

专知会员服务

27+阅读 · 2023年5月26日

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

专知会员服务

38+阅读 · 2023年3月6日

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

专知会员服务

35+阅读 · 2023年2月15日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知会员服务

27+阅读 · 2022年1月13日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

ICLR 2023 | PromptPG：当强化学习遇见大规模语言模型

ICLR 2023 | PromptPG：当强化学习遇见大规模语言模型

机器之心

2+阅读 · 2023年4月6日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

微软T-ULRv6：引领基础模型向多语言“大一统”迈进

微软T-ULRv6：引领基础模型向多语言“大一统”迈进

微软研究院AI头条

1+阅读 · 2022年11月17日

NeurlPS 2022 | 全新大模型参数高效微调方法：仅需训练0.3M的参数

NeurlPS 2022 | 全新大模型参数高效微调方法：仅需训练0.3M的参数

PaperWeekly

0+阅读 · 2022年11月9日

谷歌多模态大模型PaLI：采用参数量为4B的ViT-e，效果超过BEiT-3

谷歌多模态大模型PaLI：采用参数量为4B的ViT-e，效果超过BEiT-3

机器之心

2+阅读 · 2022年10月7日

论文浅尝 | 弱监督下极简的视觉语言预训练模型

论文浅尝 | 弱监督下极简的视觉语言预训练模型

开放知识图谱

1+阅读 · 2022年9月26日

强化学习大牛Sergey Levine新作：三个大模型教会机器人认路

强化学习大牛Sergey Levine新作：三个大模型教会机器人认路

机器之心

2+阅读 · 2022年7月24日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

ACL 2019 | 多语言BERT的语言表征探索

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

【EMNLP2019】最新5篇论文推荐，BERT，对话系统，知识图谱，注意力机制等

【EMNLP2019】最新5篇论文推荐，BERT，对话系统，知识图谱，注意力机制等

专知

32+阅读 · 2019年8月17日

基于短文本的知识库自动更新关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于训练符号填充的高谱效TSP-OFDM水声通信技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

深空通信中的自适应容错图像编码器实现方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向多核处理器的任务模块生成与调度映射方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

XQuery语言运行时自动程序例化技术的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于儿童语言习得机制的语言接地技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于轮胎－路面复杂动力特性的交叉口沥青路面设计

国家自然科学基金

0+阅读 · 2011年12月31日

复杂交通系统大规模行人群集演化规律及拥挤动力学模型研究

国家自然科学基金

0+阅读 · 2010年12月31日

场景表意式绘制方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

一种统一的具有可分级的体育视频内容理解方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Collaborative Robotic Biopsy with Trajectory Guidance and Needle Tip Force Feedback

Arxiv

0+阅读 · 2023年6月12日

VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation

Arxiv

0+阅读 · 2023年6月12日

Generating One-Hot Maps under Encryption

Arxiv

0+阅读 · 2023年6月11日

How to Backdoor Diffusion Models?

Arxiv

0+阅读 · 2023年6月9日

BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping

Arxiv

0+阅读 · 2023年6月8日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

VIP会员

相关主题

相关VIP内容

【ICML2023】终身语言预训练与分布式专业化专家

【ICML2023】终身语言预训练与分布式专业化专家

专知会员服务

27+阅读 · 2023年5月26日

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

专知会员服务

38+阅读 · 2023年3月6日

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

专知会员服务

35+阅读 · 2023年2月15日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知会员服务

27+阅读 · 2022年1月13日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

ICLR 2023 | PromptPG：当强化学习遇见大规模语言模型

ICLR 2023 | PromptPG：当强化学习遇见大规模语言模型

机器之心

2+阅读 · 2023年4月6日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

微软T-ULRv6：引领基础模型向多语言“大一统”迈进

微软T-ULRv6：引领基础模型向多语言“大一统”迈进

微软研究院AI头条

1+阅读 · 2022年11月17日

NeurlPS 2022 | 全新大模型参数高效微调方法：仅需训练0.3M的参数

NeurlPS 2022 | 全新大模型参数高效微调方法：仅需训练0.3M的参数

PaperWeekly

0+阅读 · 2022年11月9日

谷歌多模态大模型PaLI：采用参数量为4B的ViT-e，效果超过BEiT-3

谷歌多模态大模型PaLI：采用参数量为4B的ViT-e，效果超过BEiT-3

机器之心

2+阅读 · 2022年10月7日

论文浅尝 | 弱监督下极简的视觉语言预训练模型

论文浅尝 | 弱监督下极简的视觉语言预训练模型

开放知识图谱

1+阅读 · 2022年9月26日

强化学习大牛Sergey Levine新作：三个大模型教会机器人认路

强化学习大牛Sergey Levine新作：三个大模型教会机器人认路

机器之心

2+阅读 · 2022年7月24日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

ACL 2019 | 多语言BERT的语言表征探索

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

【EMNLP2019】最新5篇论文推荐，BERT，对话系统，知识图谱，注意力机制等

【EMNLP2019】最新5篇论文推荐，BERT，对话系统，知识图谱，注意力机制等

专知

32+阅读 · 2019年8月17日

相关基金

基于短文本的知识库自动更新关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于训练符号填充的高谱效TSP-OFDM水声通信技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

深空通信中的自适应容错图像编码器实现方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向多核处理器的任务模块生成与调度映射方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

XQuery语言运行时自动程序例化技术的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于儿童语言习得机制的语言接地技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于轮胎－路面复杂动力特性的交叉口沥青路面设计

国家自然科学基金

0+阅读 · 2011年12月31日

复杂交通系统大规模行人群集演化规律及拥挤动力学模型研究

国家自然科学基金

0+阅读 · 2010年12月31日

场景表意式绘制方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

一种统一的具有可分级的体育视频内容理解方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Collaborative Robotic Biopsy with Trajectory Guidance and Needle Tip Force Feedback

Arxiv

0+阅读 · 2023年6月12日

VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation

Arxiv

0+阅读 · 2023年6月12日

Generating One-Hot Maps under Encryption

Arxiv

0+阅读 · 2023年6月11日

How to Backdoor Diffusion Models?

Arxiv

0+阅读 · 2023年6月9日

BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping

Arxiv

0+阅读 · 2023年6月8日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

微信扫码咨询专知VIP会员