MIMIC-IT:多模态上下文指令调优 - 专知VIP

会员服务 ·

20

指令学习 · 多模态 · 上下文学习 ·

2023 年 6 月 11 日

MIMIC-IT:多模态上下文指令调优

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

高质量的指令和回应对于大型语言模型在自然语言交互任务中的零样本性能至关重要。对于涉及复杂视觉场景的交互式视觉语言任务，大量多样性和创新性的指令回应对应关系对于调优视觉语言模型（VLM）应该是至关重要的。然而，目前在数量、多样性和创造性方面，视觉语言指令回应对应关系的可获取性仍然有限，这对交互式VLM的泛化能力提出了挑战。在这里，我们提出了一种名为MultI-Modal In-Context Instruction Tuning（多模态上下文指令调整，简称MIMIC-IT）的数据集，它包含280万对多模态指令回应对应关系，其中220万个独特的指令源自图片和视频。每对指令回应都附带有多模态上下文信息，形成了旨在提升VLM在感知、推理和规划能力的对话上下文。我们将收集指令回应的过程称为Syphus，它通过结合人类的专业知识和GPT的能力，使用自动注释流程进行扩展。使用MIMIC-IT数据集，我们训练了一个大型的VLM，名为Otter。在对视觉语言基准进行广泛评估的基础上，我们观察到Otter在多模态感知、推理和上下文学习方面表现出显著的熟练程度。人类评估揭示，它有效地与用户的意图对齐。我们发布了MIMIC-IT数据集、指令回应收集流程、基准和Otter模型。

成为VIP会员查看完整内容

39

相关内容

指令学习

KDD 2023 | GPT时代医学AI新赛道：16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布

KDD 2023 | GPT时代医学AI新赛道：16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布

专知会员服务

32+阅读 · 2023年7月31日

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

专知会员服务

32+阅读 · 2023年5月19日

【ICML2023】在指令调优期间对语言模型进行毒化

【ICML2023】在指令调优期间对语言模型进行毒化

专知会员服务

29+阅读 · 2023年5月3日

【ICML2023】BLIP-2:基于冻结图像编码器和大型语言模型的Bootstrapping语言-图像预训练

【ICML2023】BLIP-2:基于冻结图像编码器和大型语言模型的Bootstrapping语言-图像预训练

专知会员服务

30+阅读 · 2023年5月1日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

知识增强预训练语言模型:全面综述

知识增强预训练语言模型:全面综述

专知会员服务

93+阅读 · 2021年10月19日

港中文等最新《多模态元学习》综述论文

港中文等最新《多模态元学习》综述论文

专知会员服务

124+阅读 · 2021年10月8日

【ICCV2021】模态视频表示的跨模态对比学习

专知会员服务

16+阅读 · 2021年10月4日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

「多语言图像描述」最强评估基准XM3600来了！涵盖36种语言

「多语言图像描述」最强评估基准XM3600来了！涵盖36种语言

新智元

0+阅读 · 2022年10月24日

多模态认知计算

多模态认知计算

专知

7+阅读 · 2022年9月16日

8月AI论文GitHub十强榜出炉！语言-图像模型连斩Top2

8月AI论文GitHub十强榜出炉！语言-图像模型连斩Top2

新智元

0+阅读 · 2022年9月10日

【自监督学习】OpenAI科学家一文详解自监督学习

【自监督学习】OpenAI科学家一文详解自监督学习

产业智能官

25+阅读 · 2020年3月18日

【阿里技术论文】AliMe KBQA:阿里小蜜中的结构化知识问答

【阿里技术论文】AliMe KBQA:阿里小蜜中的结构化知识问答

专知

56+阅读 · 2019年12月14日

OpenAI科学家一文详解自监督学习

OpenAI科学家一文详解自监督学习

新智元

18+阅读 · 2019年11月20日

NAACL 2019自然语言处理亮点

NAACL 2019自然语言处理亮点

专知

15+阅读 · 2019年6月15日

【EMNLP2018】RecipeQA - 食谱多模态阅读理解数据集

【EMNLP2018】RecipeQA - 食谱多模态阅读理解数据集

专知

16+阅读 · 2018年9月8日

Generative Adversarial Text to Image Synthesis论文解读

Generative Adversarial Text to Image Synthesis论文解读

统计学习与视觉计算组

13+阅读 · 2017年6月9日

基于语义网络的街区场景相似性研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向网络百科的知识抽取研究

国家自然科学基金

4+阅读 · 2014年12月31日

DC-SIGN/L-SIGN多态性与鼻咽癌易感性关联分析及其功能探索

国家自然科学基金

0+阅读 · 2014年12月31日

基于词向量表示的大规模知识图谱构建方法研究

国家自然科学基金

8+阅读 · 2014年12月31日

汉藏双语个性化多语种语音合成中的语言建模的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于流形学习的视频人脸识别方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

自然视觉的选择性注意在计算机视觉中的实现

国家自然科学基金

1+阅读 · 2012年12月31日

甜味蛋白质大分子味觉感知及其激活甜味受体-G蛋白偶联受体（GPCR）T1R2/3的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于儿童语言习得机制的语言接地技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于结构特征的网络地图自动示意化方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

How is ChatGPT's behavior changing over time?

Arxiv

0+阅读 · 2023年8月1日

Predicting Perfect Quality Segments in MT Output with Fine-Tuned OpenAI LLM: Is it possible to capture editing distance patterns from historical data?

Arxiv

0+阅读 · 2023年7月31日

CathSim: An Open-source Simulator for Endovascular Intervention

Arxiv

0+阅读 · 2023年7月31日

Transferable Decoding with Visual Entities for Zero-Shot Image Captioning

Arxiv

1+阅读 · 2023年7月31日

Does fine-tuning GPT-3 with the OpenAI API leak personally-identifiable information?

Arxiv

0+阅读 · 2023年7月31日

WC-SBERT: Zero-Shot Text Classification via SBERT with Self-Training for Wikipedia Categories

Arxiv

0+阅读 · 2023年7月28日

From Show to Tell: A Survey on Image Captioning

Arxiv

15+阅读 · 2021年7月14日

Network of Tensor Time Series

Arxiv

20+阅读 · 2021年2月28日

Beyond Accuracy: Behavioral Testing of NLP models with CheckList

Arxiv

11+阅读 · 2020年5月8日

HONE: Higher-Order Network Embeddings

Arxiv

12+阅读 · 2018年1月28日

VIP会员

相关主题

上下文学习

相关VIP内容

KDD 2023 | GPT时代医学AI新赛道：16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布

KDD 2023 | GPT时代医学AI新赛道：16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布

专知会员服务

32+阅读 · 2023年7月31日

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

专知会员服务

32+阅读 · 2023年5月19日

【ICML2023】在指令调优期间对语言模型进行毒化

【ICML2023】在指令调优期间对语言模型进行毒化

专知会员服务

29+阅读 · 2023年5月3日

【ICML2023】BLIP-2:基于冻结图像编码器和大型语言模型的Bootstrapping语言-图像预训练

【ICML2023】BLIP-2:基于冻结图像编码器和大型语言模型的Bootstrapping语言-图像预训练

专知会员服务

30+阅读 · 2023年5月1日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

知识增强预训练语言模型:全面综述

知识增强预训练语言模型:全面综述

专知会员服务

93+阅读 · 2021年10月19日

港中文等最新《多模态元学习》综述论文

港中文等最新《多模态元学习》综述论文

专知会员服务

124+阅读 · 2021年10月8日

【ICCV2021】模态视频表示的跨模态对比学习

专知会员服务

16+阅读 · 2021年10月4日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】数据驱动决策中的激励、信息与不确定性

DGP双粒度提示框架：图增强大模型助力欺诈检测

【ICCV2025】ESSENTIAL：用于视频类增量学习的情景记忆与语义记忆整合

唯快不破：大型语言模型高效架构综述

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

「多语言图像描述」最强评估基准XM3600来了！涵盖36种语言

「多语言图像描述」最强评估基准XM3600来了！涵盖36种语言

新智元

0+阅读 · 2022年10月24日

多模态认知计算

多模态认知计算

专知

7+阅读 · 2022年9月16日

8月AI论文GitHub十强榜出炉！语言-图像模型连斩Top2

8月AI论文GitHub十强榜出炉！语言-图像模型连斩Top2

新智元

0+阅读 · 2022年9月10日

【自监督学习】OpenAI科学家一文详解自监督学习

【自监督学习】OpenAI科学家一文详解自监督学习

产业智能官

25+阅读 · 2020年3月18日

【阿里技术论文】AliMe KBQA:阿里小蜜中的结构化知识问答

【阿里技术论文】AliMe KBQA:阿里小蜜中的结构化知识问答

专知

56+阅读 · 2019年12月14日

OpenAI科学家一文详解自监督学习

OpenAI科学家一文详解自监督学习

新智元

18+阅读 · 2019年11月20日

NAACL 2019自然语言处理亮点

NAACL 2019自然语言处理亮点

专知

15+阅读 · 2019年6月15日

【EMNLP2018】RecipeQA - 食谱多模态阅读理解数据集

【EMNLP2018】RecipeQA - 食谱多模态阅读理解数据集

专知

16+阅读 · 2018年9月8日

Generative Adversarial Text to Image Synthesis论文解读

Generative Adversarial Text to Image Synthesis论文解读

统计学习与视觉计算组

13+阅读 · 2017年6月9日

相关基金

基于语义网络的街区场景相似性研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向网络百科的知识抽取研究

国家自然科学基金

4+阅读 · 2014年12月31日

DC-SIGN/L-SIGN多态性与鼻咽癌易感性关联分析及其功能探索

国家自然科学基金

0+阅读 · 2014年12月31日

基于词向量表示的大规模知识图谱构建方法研究

国家自然科学基金

8+阅读 · 2014年12月31日

汉藏双语个性化多语种语音合成中的语言建模的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于流形学习的视频人脸识别方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

自然视觉的选择性注意在计算机视觉中的实现

国家自然科学基金

1+阅读 · 2012年12月31日

甜味蛋白质大分子味觉感知及其激活甜味受体-G蛋白偶联受体（GPCR）T1R2/3的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于儿童语言习得机制的语言接地技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于结构特征的网络地图自动示意化方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

相关论文

How is ChatGPT's behavior changing over time?

Arxiv

0+阅读 · 2023年8月1日

Predicting Perfect Quality Segments in MT Output with Fine-Tuned OpenAI LLM: Is it possible to capture editing distance patterns from historical data?

Arxiv

0+阅读 · 2023年7月31日

CathSim: An Open-source Simulator for Endovascular Intervention

Arxiv

0+阅读 · 2023年7月31日

Transferable Decoding with Visual Entities for Zero-Shot Image Captioning

Arxiv

1+阅读 · 2023年7月31日

Does fine-tuning GPT-3 with the OpenAI API leak personally-identifiable information?

Arxiv

0+阅读 · 2023年7月31日

WC-SBERT: Zero-Shot Text Classification via SBERT with Self-Training for Wikipedia Categories

Arxiv

0+阅读 · 2023年7月28日

From Show to Tell: A Survey on Image Captioning

Arxiv

15+阅读 · 2021年7月14日

Network of Tensor Time Series

Arxiv

20+阅读 · 2021年2月28日

Beyond Accuracy: Behavioral Testing of NLP models with CheckList

Arxiv

11+阅读 · 2020年5月8日

HONE: Higher-Order Network Embeddings

Arxiv

12+阅读 · 2018年1月28日

微信扫码咨询专知VIP会员