**复杂视觉推理与问题回答(VQA)是一个具有挑战性的任务,要求具备超越简单物体和事件识别与定位的组成性多步处理能力和更高层次的推理能力。**在本文中,我们提出了一种完全神经化的迭代与并行推理机制(IPRM),该机制结合了两种不同形式的计算——迭代计算和并行计算——以更好地解决复杂的VQA场景。具体来说,IPRM的“迭代”计算有助于在需要动态计算、存储和回忆个别操作的场景中进行逐步的组成性推理(例如,计算查询:“确定坐在白色桌子旁边穿红色T恤的孩子左侧的笔的颜色”)。与此同时,其“并行”计算允许同时探索不同的推理路径,并有利于独立操作的更强鲁棒性和高效执行(例如,在查询“确定所有T恤中出现频率最高的颜色”时计算每种颜色的数量)。我们将IPRM设计为一个轻量级、完全可微的神经模块,可以方便地应用于变换器(transformer)和非变换器的视觉-语言骨干网络。它在多个图像和视频VQA基准测试中,超越了先前的任务特定方法和基于变换器的注意力模块,测试了不同的复杂推理能力,如组成性时空推理(AGQA)、情境推理(STAR)、多跳推理泛化(CLEVR-Humans)和因果事件链接(CLEVRER-Humans)。此外,IPRM的内部计算可以在推理步骤中进行可视化,有助于提高其可解释性和错误诊断。源代码将发布于:https://github.com/shantanuj/IPRM_Iterative_and_Parallel_Reasoning_Mechanism

成为VIP会员查看完整内容
14

相关内容

【ICML2024】深度强化学习中的随机潜在探索
专知会员服务
17+阅读 · 7月19日
【CVPR2024】通过丰富的监督增强视觉-语言预训练
【CVPR2022】以人为中心感知的多模态预训练
专知会员服务
29+阅读 · 2022年3月28日
【IJCAI2021】复杂知识库问答研究: 方法、挑战与对策
专知会员服务
54+阅读 · 2021年5月27日
专知会员服务
16+阅读 · 2021年4月27日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2008年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
404+阅读 · 2023年3月31日
Arxiv
67+阅读 · 2023年3月26日
Arxiv
144+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员