Visual Abductive Reasoning (VAR) is an emerging vision-language (VL) topic where the model needs to retrieve/generate a likely textual hypothesis from a visual input (image or part of an image) using backward reasoning based on prior knowledge or commonsense. Unlike in conventional VL retrieval or captioning tasks, where entities of texts appear in the image, in abductive inferences, the relevant facts about inferences are not directly visible in the input images. Besides, the inferences are causally relevant to regional visual hints and vary with the latter. Existing works highlight visual parts from a global background with specific prompt tuning techniques (e.g., colorful prompt tuning) on top of foundation models, like CLIP. However, these methods uniformly patchify "regional hints" and "global context" at the same granularity level and may lose fine-grained visual details significant for abductive reasoning. To tackle this, we propose a simple yet effective Regional Prompt Tuning, which encodes "regional visual hints" and "global contexts" separately at fine and coarse-grained levels. Specifically, our model explicitly upsamples, then patchify local hints to get fine-grained regional prompts. These prompts are concatenated with coarse-grained contextual tokens from whole images. We also equip our model with a new Dual-Contrastive Loss to regress the visual feature simultaneously toward features of factual description (a.k.a. clue text) and plausible hypothesis (abductive inference text) during training. Extensive experiments on the Sherlock dataset demonstrate that our fully fine-tuned RGP/RGPs with Dual-Contrastive Loss significantly outperforms previous SOTAs, achieving the 1 rank on abductive reasoning leaderboards among all submissions, under all metrics (e.g., P@1$_{i->t}$: RGPs 38.78 vs CPT-CLIP 33.44, higher=better). We would open-source our codes for further research.


翻译:视觉诱因推理(VAR)是一种新兴的视觉语言(VL)领域,其中模型需要使用基于先验知识或常识的向后推理从视觉输入(图像或图像的一部分)中检索/生成可能的文本假设。与传统的VL检索或字幕任务不同,在诱导推理中,有关推理的相关事实在输入图像中不直接可见。此外,推论与区域视觉提示因果相关并随之变化。现有的作品通过特定的提示微调技术(例如,彩色提示微调)强调了来自全局背景的视觉部分。但是,这些方法统一地将“区域提示”和“全局上下文”在相同的粒度级别上制作补丁,可能会失去对诱导推理有重要意义的细粒度视觉细节。为解决这个问题,我们提出了一种简单而有效的区域提示微调方法,可以在细和粗粒度级别上分别对“区域视觉提示”和“全局上下文”进行编码。具体而言,我们的模型明确地将本地提示上采样,然后制作细粒度的区域提示。这些提示与整个图像的粗粒度上下文令牌连接。我们还为我们的模型配备了新的双对比损失,在训练期间同时回归视觉特征到事实描述(即线索文本)和合理的假设(诱导推理文本)的特征。对 Sherlock 数据集进行的大量实验表明,我们的完全微调的 RGP/RGPs(使用双对比性损失)显着优于以前的 SOTA,在所有度量标准下(例如,P@1$_{i->t}$: RGPs 38.78 vs CPT-CLIP 33.44,越高越好),在所有提交中在诱导推理排行榜上排名第一。我们将开源我们的代码以供进一步研究。

0
下载
关闭预览

相关内容

【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
专知会员服务
24+阅读 · 2021年9月19日
专知会员服务
18+阅读 · 2021年9月13日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
28+阅读 · 2019年10月18日
EMNLP 2022 | 校准预训练模型中的事实知识
PaperWeekly
1+阅读 · 2022年11月22日
论文浅尝 | 弱监督下极简的视觉语言预训练模型
开放知识图谱
1+阅读 · 2022年9月26日
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
论文浅尝 | Improved Neural Relation Detection for KBQA
开放知识图谱
13+阅读 · 2018年1月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
12+阅读 · 2021年5月3日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员