【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答 - 专知VIP

会员服务 ·

15

CVPR 2023 · 提示学习 · GPT-3 · 视觉问答 · 语言模型 ·

2023 年 3 月 6 日

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

基于知识的视觉问答(VQA)需要图像以外的外部知识来回答问题。早期的研究从显式知识库(KBs)中检索所需的知识，但这些知识往往会引入与问题无关的信息，从而限制了模型的性能。最近的工作试图使用大型语言模型(即GPT-3[3])作为隐式知识引擎，以获取必要的知识进行回答。尽管这些方法取得了令人鼓舞的结果，但由于提供的输入信息不足，它们并没有充分激活GPT-3的能力。**本文提出prophet——一个概念简单的框架，旨在用答案启发式方法提示GPT-3进行基于知识的VQA。**首先，在没有外部知识的情况下，在特定的基于知识的VQA数据集上训练了一个普通的VQA模型。然后，从模型中抽取两类互补答案启发:答案候选和答案感知示例。最后，将两类答案启发编码到提示信息中，使GPT-3能够更好地理解任务，从而提高其能力。Prophet在两个具有挑战性的基于知识的VQA数据集OK-VQA和A-OKVQA上明显优于所有现有的最先进方法，在它们的测试集上分别取得了61.1%和55.7%的准确率。

https://www.zhuanzhi.ai/paper/041ce0c21c2475799872dddbbfef55df

成为VIP会员查看完整内容

38

相关内容

CVPR 2023

CVPR 2023大会将于 6 月 18 日至 22 日在温哥华会议中心举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。 CVPR 2023 共收到 9155 份提交，比去年增加了 12%，创下新纪录，今年接收了 2360 篇论文，接收率为 25.78%。作为对比，去年有 8100 多篇有效投稿，大会接收了 2067 篇，接收率为 25%。

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

专知会员服务

58+阅读 · 2023年4月21日

【CVPR2023】零样本模型诊断

【CVPR2023】零样本模型诊断

专知会员服务

32+阅读 · 2023年3月29日

【CVPR2023】提示、生成、然后缓存:基础模型的级联生成强大的少样本学习器

【CVPR2023】提示、生成、然后缓存:基础模型的级联生成强大的少样本学习器

专知会员服务

37+阅读 · 2023年3月8日

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

专知会员服务

21+阅读 · 2023年3月1日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【EMNLP2021】基于神经常识知识和符号逻辑规则的会话多跳推理

专知会员服务

27+阅读 · 2021年9月20日

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

专知会员服务

29+阅读 · 2021年1月17日

【CVPR2020】视觉推理-可微自适应计算时间

【CVPR2020】视觉推理-可微自适应计算时间

专知会员服务

13+阅读 · 2020年4月28日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知

1+阅读 · 2023年4月10日

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文解答

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文解答

专知

5+阅读 · 2023年4月5日

EMNLP 2022 | 校准预训练模型中的事实知识

EMNLP 2022 | 校准预训练模型中的事实知识

PaperWeekly

1+阅读 · 2022年11月22日

语言偏见不是唯一的捷径：视觉问答的捷径学习数据集

语言偏见不是唯一的捷径：视觉问答的捷径学习数据集

PaperWeekly

3+阅读 · 2022年11月3日

AAAI 2022 | MAVEx—基于知识的视觉问答方法

AAAI 2022 | MAVEx—基于知识的视觉问答方法

PaperWeekly

3+阅读 · 2022年10月8日

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

专知

5+阅读 · 2022年8月11日

2022最新177页博士论文《基于大型知识库进行问答的非参数化上下文推理》马萨诸塞大学阿默斯特分校

2022最新177页博士论文《基于大型知识库进行问答的非参数化上下文推理》马萨诸塞大学阿默斯特分校

专知

0+阅读 · 2022年8月7日

【ECCV2022】用于视频问题回答的视频图Transformer

【ECCV2022】用于视频问题回答的视频图Transformer

专知

0+阅读 · 2022年8月3日

ACL 2022 | 基于自监督图对齐的多语言知识图谱推理

ACL 2022 | 基于自监督图对齐的多语言知识图谱推理

PaperWeekly

1+阅读 · 2022年6月20日

连夺4项第一！AI常识推理和人类又近了3%

连夺4项第一！AI常识推理和人类又近了3%

新智元

0+阅读 · 2022年4月28日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

5+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于多维度文本特征的社区问答答案质量评估研究

国家自然科学基金

0+阅读 · 2013年12月31日

无指导汉语文本挖掘的统计模型和统计推断

国家自然科学基金

0+阅读 · 2013年12月31日

基于弱指导机器学习技术的中文领域本体非分类关系自动学习研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多源信息融合的元数据自动抽取方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

多模态中文歌曲情感识别技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于半监督结构化学习的跨语言映射研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于本体的深层网络数据集成方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

Understanding Zero-Shot Adversarial Robustness for Large-Scale Models

Arxiv

1+阅读 · 2023年4月21日

Generalized Relation Modeling for Transformer Tracking

Arxiv

0+阅读 · 2023年4月21日

Can GPT-4 Perform Neural Architecture Search?

Arxiv

0+阅读 · 2023年4月21日

Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation

Arxiv

0+阅读 · 2023年4月21日

RPLKG: Robust Prompt Learning with Knowledge Graph

Arxiv

1+阅读 · 2023年4月21日

Word Sense Induction with Knowledge Distillation from BERT

Arxiv

1+阅读 · 2023年4月20日

Supporting Qualitative Analysis with Large Language Models: Combining Codebook with GPT-3 for Deductive Coding

Arxiv

0+阅读 · 2023年4月17日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension

Arxiv

12+阅读 · 2020年12月14日

VIP会员

相关主题

相关VIP内容

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

专知会员服务

58+阅读 · 2023年4月21日

【CVPR2023】零样本模型诊断

【CVPR2023】零样本模型诊断

专知会员服务

32+阅读 · 2023年3月29日

【CVPR2023】提示、生成、然后缓存:基础模型的级联生成强大的少样本学习器

【CVPR2023】提示、生成、然后缓存:基础模型的级联生成强大的少样本学习器

专知会员服务

37+阅读 · 2023年3月8日

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

专知会员服务

21+阅读 · 2023年3月1日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【EMNLP2021】基于神经常识知识和符号逻辑规则的会话多跳推理

专知会员服务

27+阅读 · 2021年9月20日

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

专知会员服务

29+阅读 · 2021年1月17日

【CVPR2020】视觉推理-可微自适应计算时间

【CVPR2020】视觉推理-可微自适应计算时间

专知会员服务

13+阅读 · 2020年4月28日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《巡飞弹药（爆炸性无人机）威胁态势分析》最新24页报告

《军用后勤无人机：破解战场运输挑战的创新方案》

人工智能战争：以色列、伊朗与新型AI战争形态

《俄乌战争：现代战争未来的启示与经验》

相关资讯

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知

1+阅读 · 2023年4月10日

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文解答

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文解答

专知

5+阅读 · 2023年4月5日

EMNLP 2022 | 校准预训练模型中的事实知识

EMNLP 2022 | 校准预训练模型中的事实知识

PaperWeekly

1+阅读 · 2022年11月22日

语言偏见不是唯一的捷径：视觉问答的捷径学习数据集

语言偏见不是唯一的捷径：视觉问答的捷径学习数据集

PaperWeekly

3+阅读 · 2022年11月3日

AAAI 2022 | MAVEx—基于知识的视觉问答方法

AAAI 2022 | MAVEx—基于知识的视觉问答方法

PaperWeekly

3+阅读 · 2022年10月8日

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

专知

5+阅读 · 2022年8月11日

2022最新177页博士论文《基于大型知识库进行问答的非参数化上下文推理》马萨诸塞大学阿默斯特分校

2022最新177页博士论文《基于大型知识库进行问答的非参数化上下文推理》马萨诸塞大学阿默斯特分校

专知

0+阅读 · 2022年8月7日

【ECCV2022】用于视频问题回答的视频图Transformer

【ECCV2022】用于视频问题回答的视频图Transformer

专知

0+阅读 · 2022年8月3日

ACL 2022 | 基于自监督图对齐的多语言知识图谱推理

ACL 2022 | 基于自监督图对齐的多语言知识图谱推理

PaperWeekly

1+阅读 · 2022年6月20日

连夺4项第一！AI常识推理和人类又近了3%

连夺4项第一！AI常识推理和人类又近了3%

新智元

0+阅读 · 2022年4月28日

相关基金

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

5+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于多维度文本特征的社区问答答案质量评估研究

国家自然科学基金

0+阅读 · 2013年12月31日

无指导汉语文本挖掘的统计模型和统计推断

国家自然科学基金

0+阅读 · 2013年12月31日

基于弱指导机器学习技术的中文领域本体非分类关系自动学习研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多源信息融合的元数据自动抽取方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

多模态中文歌曲情感识别技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于半监督结构化学习的跨语言映射研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于本体的深层网络数据集成方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

相关论文

Understanding Zero-Shot Adversarial Robustness for Large-Scale Models

Arxiv

1+阅读 · 2023年4月21日

Generalized Relation Modeling for Transformer Tracking

Arxiv

0+阅读 · 2023年4月21日

Can GPT-4 Perform Neural Architecture Search?

Arxiv

0+阅读 · 2023年4月21日

Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation

Arxiv

0+阅读 · 2023年4月21日

RPLKG: Robust Prompt Learning with Knowledge Graph

Arxiv

1+阅读 · 2023年4月21日

Word Sense Induction with Knowledge Distillation from BERT

Arxiv

1+阅读 · 2023年4月20日

Supporting Qualitative Analysis with Large Language Models: Combining Codebook with GPT-3 for Deductive Coding

Arxiv

0+阅读 · 2023年4月17日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension

Arxiv

12+阅读 · 2020年12月14日

微信扫码咨询专知VIP会员