论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models - 专知

会员服务 ·

0

论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models

2021 年 9 月 23 日 开放知识图谱

笔记整理：李磊，浙江大学硕士，研究方向为自然语言处理链接：https://arxiv.org/abs/2106.13884

动机

大规模的自回归语言模型（如GPT）在预训练阶段学习到了大量的知识，具有很好的学习新任务的能力，给定几个“任务示例”，模型可以很快的学习到任务形式并回答新问题，但这种能力仅限于文本领域。

Prompt tuning通过添加提示信息，充分挖掘预训练语言模型蕴含的知识，在few-shot场景下取得了良好的效果。

作者提出了Frozen，利用Visual Encoder对图片进行编码，编码得到的结果作为prompt与文本一起送入语言模型中，试图将大规模语言模型和prompt应用于多模态领域。在VQA、OKVQA、miniImageNet等多个数据集的多模态few-shot场景下进行了实验，结果表明Frozen有效的利用了预训练语言模型的先验知识，具有很好的迁移学习能力。

模型结构

图 1模型结构图

如图1所示，模型结构主要分为两个部分：

1.预训练自回归语言模型

在公共数据集C4上预训练一个基于transformer结构的深度自回归语言模型，模型具有70亿参数。

2.视觉编码器

基于NF-ResNet-50，主要功能是将原始的图片映射为连续的序列以便transformer模型进行处理。将NF-Resnet全局池化层后的结果作为最终输出向量。受Prefix-tuning的启发，作者将视觉编码器的输出作为视觉prefix，与文本一起送入语言模型中。这种方式将静态的文本prefix转换成动态的视觉prefix，输入的图片不同，产生的视觉prefix也不同，从而更好地“提示”语言模型。

训练

如图1所示，训练时采用image-caption数据集，输入是（图片，文本）对，以生成式的方式输出对图片的描述文本信息。训练过程中冻结语言模型，仅训练视觉编码器。在k-shot场景下，需要给出几个示例，因此模型的输入可能会包含多个（图片，文本）对，作者使用相对位置编码使图文始终在对应文本之前。

实验

作者以下三个角度进行了实验：1.Rapid Task Adaptation. 2.Encyclopedic Knowledge. 3.Fast Concept Binding

1.Rapid Task Adaptation

图 2 Rapid Task Adaptation结果

测试在image-caption上训练的模型在VQA数据集上的表现并设置了多个对照模型。Frozen scratch表示语言模型是随机初始化的，Frozen finetuned 表示语言模型使用预训练权重，Frozen train-blind 控制视觉编码器的输入始终是黑色图像。可以发现Frozen随着提供示例（n）的增多，效果有所提升。

2.Encyclopedic Knowledge

图 3 Encyclopedic Knowledge结果

此部分测试了Frozen在需要外部知识的OKVQA数据集上的表现，Frozen同样在Image-caption上进行训练。同时比较了语言模型大小对结果的影响（Frozen 400mLM）。

3.Fast Concept Binding

图 4 Fast Concept Binding输入示例

如图4所示，将blicket和dax等无实际意义的词与某一事物类别进行绑定，同时给出几个示例，测试模型是否具有概念绑定的能力。

图 5 概念数等于2时的结果

图 6 概念数等于5时的结果

作者还进一步测试了概念绑定与外部知识结合的场景下Frozen的效果。

随着任务难度增加，Frozen的效果也有所下降，但提供的示例数增加的时候，Frozen能从示例中提取到相关知识，指导结果的生成。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文，进入 OpenKG 网站。

登录查看更多

1

相关内容

语言模型

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

近期必读的六篇 ICML 2020【元学习（Meta Learning）】相关论文

近期必读的六篇 ICML 2020【元学习（Meta Learning）】相关论文

专知会员服务

45+阅读 · 2020年9月25日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知会员服务

97+阅读 · 2020年5月31日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【AAAI2020】知识图谱的生成式对抗零样本关系学习，Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

【AAAI2020】知识图谱的生成式对抗零样本关系学习，Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

专知会员服务

64+阅读 · 2020年1月11日

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

专知会员服务

30+阅读 · 2020年1月2日

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

专知会员服务

49+阅读 · 2019年11月15日

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

专知会员服务

54+阅读 · 2019年11月12日

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

专知会员服务

26+阅读 · 2019年11月11日

恕我直言，你的模型可能并没看懂 prompt 在说啥

恕我直言，你的模型可能并没看懂 prompt 在说啥

夕小瑶的卖萌屋

2+阅读 · 2022年4月15日

从顶会论文看多模态预训练研究进展

从顶会论文看多模态预训练研究进展

专知

3+阅读 · 2021年12月24日

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

PaperWeekly

5+阅读 · 2021年11月3日

NLP的“第四范式”之Prompt Learning总结：44篇论文逐一梳理

NLP的“第四范式”之Prompt Learning总结：44篇论文逐一梳理

PaperWeekly

2+阅读 · 2021年10月24日

论文浅尝 | 利用冻结语言模型的多模态少样本学习

论文浅尝 | 利用冻结语言模型的多模态少样本学习

开放知识图谱

0+阅读 · 2021年8月28日

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

开放知识图谱

52+阅读 · 2019年9月1日

站在BERT肩膀上的NLP新秀们（PART III）

站在BERT肩膀上的NLP新秀们（PART III）

AINLP

11+阅读 · 2019年6月18日

站在BERT肩膀上的NLP新秀们：XLMs、MASS和UNILM

站在BERT肩膀上的NLP新秀们：XLMs、MASS和UNILM

PaperWeekly

16+阅读 · 2019年6月6日

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

开放知识图谱

19+阅读 · 2019年6月4日

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

开放知识图谱

26+阅读 · 2018年11月1日

面向动态规划计算的并行编程模型和运行时系统研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多任务概率视觉语义模型的图像场景理解

国家自然科学基金

2+阅读 · 2013年12月31日

多源地理数据集成评估中目标的形式化建模及适应性信息融合方法

国家自然科学基金

0+阅读 · 2012年12月31日

提高支持向量机处理复杂数据效能的方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

广义Kloosterman和的均值估计

国家自然科学基金

0+阅读 · 2011年12月31日

含控制器的电力系统递阶（结构化）模型研究

国家自然科学基金

0+阅读 · 2010年12月31日

含未知参数随机跳变系统的自适应镇定性研究

国家自然科学基金

0+阅读 · 2009年12月31日

病理性疼痛调节的新靶点-脊髓背角星形胶质细胞糖皮质激素受体

国家自然科学基金

0+阅读 · 2009年12月31日

文本语义模型和子空间聚类研究

国家自然科学基金

1+阅读 · 2009年12月31日

Few-Shot Learning with Siamese Networks and Label Tuning

Arxiv

1+阅读 · 2022年4月20日

Generative Biomedical Entity Linking via Knowledge Base-Guided Pre-training and Synonyms-Aware Fine-tuning

Arxiv

0+阅读 · 2022年4月20日

K-LITE: Learning Transferable Visual Models with External Knowledge

Arxiv

2+阅读 · 2022年4月20日

Contrastive Demonstration Tuning for Pre-trained Language Models

Arxiv

0+阅读 · 2022年4月18日

Multimodal Few-Shot Object Detection with Meta-Learning Based Cross-Modal Prompting

Arxiv

0+阅读 · 2022年4月16日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

Few-shot Learning for Multi-label Intent Detection

Arxiv

21+阅读 · 2020年10月11日

Deep Learning for Learning Graph Representations

Arxiv

35+阅读 · 2020年1月2日

Few-shot Learning: A Survey

Few-shot Learning: A Survey

Arxiv

363+阅读 · 2019年4月10日

Learning Embedding Adaptation for Few-Shot Learning

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

17+阅读 · 2018年12月10日

VIP会员

相关主题

小样本学习

相关VIP内容

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

近期必读的六篇 ICML 2020【元学习（Meta Learning）】相关论文

近期必读的六篇 ICML 2020【元学习（Meta Learning）】相关论文

专知会员服务

45+阅读 · 2020年9月25日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知会员服务

97+阅读 · 2020年5月31日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【AAAI2020】知识图谱的生成式对抗零样本关系学习，Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

【AAAI2020】知识图谱的生成式对抗零样本关系学习，Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

专知会员服务

64+阅读 · 2020年1月11日

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

专知会员服务

30+阅读 · 2020年1月2日

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

专知会员服务

49+阅读 · 2019年11月15日

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

专知会员服务

54+阅读 · 2019年11月12日

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

专知会员服务

26+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

恕我直言，你的模型可能并没看懂 prompt 在说啥

恕我直言，你的模型可能并没看懂 prompt 在说啥

夕小瑶的卖萌屋

2+阅读 · 2022年4月15日

从顶会论文看多模态预训练研究进展

从顶会论文看多模态预训练研究进展

专知

3+阅读 · 2021年12月24日

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

PaperWeekly

5+阅读 · 2021年11月3日

NLP的“第四范式”之Prompt Learning总结：44篇论文逐一梳理

NLP的“第四范式”之Prompt Learning总结：44篇论文逐一梳理

PaperWeekly

2+阅读 · 2021年10月24日

论文浅尝 | 利用冻结语言模型的多模态少样本学习

论文浅尝 | 利用冻结语言模型的多模态少样本学习

开放知识图谱

0+阅读 · 2021年8月28日

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

开放知识图谱

52+阅读 · 2019年9月1日

站在BERT肩膀上的NLP新秀们（PART III）

站在BERT肩膀上的NLP新秀们（PART III）

AINLP

11+阅读 · 2019年6月18日

站在BERT肩膀上的NLP新秀们：XLMs、MASS和UNILM

站在BERT肩膀上的NLP新秀们：XLMs、MASS和UNILM

PaperWeekly

16+阅读 · 2019年6月6日

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

开放知识图谱

19+阅读 · 2019年6月4日

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

开放知识图谱

26+阅读 · 2018年11月1日

相关基金

面向动态规划计算的并行编程模型和运行时系统研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多任务概率视觉语义模型的图像场景理解

国家自然科学基金

2+阅读 · 2013年12月31日

多源地理数据集成评估中目标的形式化建模及适应性信息融合方法

国家自然科学基金

0+阅读 · 2012年12月31日

提高支持向量机处理复杂数据效能的方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

广义Kloosterman和的均值估计

国家自然科学基金

0+阅读 · 2011年12月31日

含控制器的电力系统递阶（结构化）模型研究

国家自然科学基金

0+阅读 · 2010年12月31日

含未知参数随机跳变系统的自适应镇定性研究

国家自然科学基金

0+阅读 · 2009年12月31日

病理性疼痛调节的新靶点-脊髓背角星形胶质细胞糖皮质激素受体

国家自然科学基金

0+阅读 · 2009年12月31日

文本语义模型和子空间聚类研究

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

Few-Shot Learning with Siamese Networks and Label Tuning

Arxiv

1+阅读 · 2022年4月20日

Generative Biomedical Entity Linking via Knowledge Base-Guided Pre-training and Synonyms-Aware Fine-tuning

Arxiv

0+阅读 · 2022年4月20日

K-LITE: Learning Transferable Visual Models with External Knowledge

Arxiv

2+阅读 · 2022年4月20日

Contrastive Demonstration Tuning for Pre-trained Language Models

Arxiv

0+阅读 · 2022年4月18日

Multimodal Few-Shot Object Detection with Meta-Learning Based Cross-Modal Prompting

Arxiv

0+阅读 · 2022年4月16日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

Few-shot Learning for Multi-label Intent Detection

Arxiv

21+阅读 · 2020年10月11日

Deep Learning for Learning Graph Representations

Arxiv

35+阅读 · 2020年1月2日

Few-shot Learning: A Survey

Few-shot Learning: A Survey

Arxiv

363+阅读 · 2019年4月10日

Learning Embedding Adaptation for Few-Shot Learning

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

17+阅读 · 2018年12月10日

大家都在搜

国防科技创新

大型语言模型

CMU博士论文

软件无线电

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员