基于知识的视觉问答(VQA)需要图像以外的外部知识来回答问题。早期的研究从显式知识库(KBs)中检索所需的知识,但这些知识往往会引入与问题无关的信息,从而限制了模型的性能。最近的工作试图使用大型语言模型(即GPT-3[3])作为隐式知识引擎,以获取必要的知识进行回答。尽管这些方法取得了令人鼓舞的结果,但由于提供的输入信息不足,它们并没有充分激活GPT-3的能力。**本文提出prophet——一个概念简单的框架,旨在用答案启发式方法提示GPT-3进行基于知识的VQA。**首先,在没有外部知识的情况下,在特定的基于知识的VQA数据集上训练了一个普通的VQA模型。然后,从模型中抽取两类互补答案启发:答案候选和答案感知示例。最后,将两类答案启发编码到提示信息中,使GPT-3能够更好地理解任务,从而提高其能力。Prophet在两个具有挑战性的基于知识的VQA数据集OK-VQA和A-OKVQA上明显优于所有现有的最先进方法,在它们的测试集上分别取得了61.1%和55.7%的准确率。

https://www.zhuanzhi.ai/paper/041ce0c21c2475799872dddbbfef55df

成为VIP会员查看完整内容
38

相关内容

CVPR 2023大会将于 6 月 18 日至 22 日在温哥华会议中心举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。 CVPR 2023 共收到 9155 份提交,比去年增加了 12%,创下新纪录,今年接收了 2360 篇论文,接收率为 25.78%。作为对比,去年有 8100 多篇有效投稿,大会接收了 2067 篇,接收率为 25%。
【CVPR2023】零样本模型诊断
专知会员服务
31+阅读 · 2023年3月29日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
49+阅读 · 2021年12月20日
【CVPR2020】视觉推理-可微自适应计算时间
专知会员服务
13+阅读 · 2020年4月28日
EMNLP 2022 | 校准预训练模型中的事实知识
PaperWeekly
1+阅读 · 2022年11月22日
AAAI 2022 | MAVEx—基于知识的视觉问答方法
PaperWeekly
3+阅读 · 2022年10月8日
连夺4项第一!AI常识推理和人类又近了3%
新智元
0+阅读 · 2022年4月28日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年4月21日
Arxiv
1+阅读 · 2023年4月21日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员