【NeurIPS2024】在复杂视觉推理场景中学习迭代和并行推理 - 专知VIP

会员服务 ·

11

NeurIPS 2024 · 复杂视觉推理 ·

2024 年 11 月 30 日

【NeurIPS2024】在复杂视觉推理场景中学习迭代和并行推理

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

**复杂视觉推理与问题回答（VQA）是一个具有挑战性的任务，要求具备超越简单物体和事件识别与定位的组成性多步处理能力和更高层次的推理能力。**在本文中，我们提出了一种完全神经化的迭代与并行推理机制（IPRM），该机制结合了两种不同形式的计算——迭代计算和并行计算——以更好地解决复杂的VQA场景。具体来说，IPRM的“迭代”计算有助于在需要动态计算、存储和回忆个别操作的场景中进行逐步的组成性推理（例如，计算查询：“确定坐在白色桌子旁边穿红色T恤的孩子左侧的笔的颜色”）。与此同时，其“并行”计算允许同时探索不同的推理路径，并有利于独立操作的更强鲁棒性和高效执行（例如，在查询“确定所有T恤中出现频率最高的颜色”时计算每种颜色的数量）。我们将IPRM设计为一个轻量级、完全可微的神经模块，可以方便地应用于变换器（transformer）和非变换器的视觉-语言骨干网络。它在多个图像和视频VQA基准测试中，超越了先前的任务特定方法和基于变换器的注意力模块，测试了不同的复杂推理能力，如组成性时空推理（AGQA）、情境推理（STAR）、多跳推理泛化（CLEVR-Humans）和因果事件链接（CLEVRER-Humans）。此外，IPRM的内部计算可以在推理步骤中进行可视化，有助于提高其可解释性和错误诊断。源代码将发布于：https://github.com/shantanuj/IPRM_Iterative_and_Parallel_Reasoning_Mechanism

成为VIP会员查看完整内容

17

相关内容

NeurIPS 2024

【ICML2024】深度强化学习中的随机潜在探索

【ICML2024】深度强化学习中的随机潜在探索

专知会员服务

20+阅读 · 2024年7月19日

【ICML2024】多目标强化学习的最大-最小公式：从理论到无模型算法

【ICML2024】多目标强化学习的最大-最小公式：从理论到无模型算法

专知会员服务

43+阅读 · 2024年6月16日

【KDD2024】异质性知情的元参数学习用于时空时间序列预测

【KDD2024】异质性知情的元参数学习用于时空时间序列预测

专知会员服务

22+阅读 · 2024年5月22日

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

专知会员服务

21+阅读 · 2024年4月18日

【CVPR2024】通过丰富的监督增强视觉-语言预训练

【CVPR2024】通过丰富的监督增强视觉-语言预训练

专知会员服务

14+阅读 · 2024年3月7日

【NeurIPS2023】强化学习中的安全探索：一种通用化的公式和算法

【NeurIPS2023】强化学习中的安全探索：一种通用化的公式和算法

专知会员服务

34+阅读 · 2023年10月6日

【CVPR2022】以人为中心感知的多模态预训练

【CVPR2022】以人为中心感知的多模态预训练

专知会员服务

30+阅读 · 2022年3月28日

【IJCAI2021】复杂知识库问答研究: 方法、挑战与对策

【IJCAI2021】复杂知识库问答研究: 方法、挑战与对策

专知会员服务

56+阅读 · 2021年5月27日

【CVPR2021】针对场景图生成语义模糊性的概率性建模

专知会员服务

17+阅读 · 2021年4月27日

【EMNLP2020】利用文本和一阶逻辑中的声明知识进行细粒度的宣传手段检测

【EMNLP2020】利用文本和一阶逻辑中的声明知识进行细粒度的宣传手段检测

专知会员服务

13+阅读 · 2020年9月19日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

【CVPR2019】弱监督图像分类建模

【CVPR2019】弱监督图像分类建模

深度学习大讲堂

38+阅读 · 2019年7月25日

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

专知

18+阅读 · 2019年4月26日

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

专知

13+阅读 · 2018年6月18日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

35+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模分布式一致性最优化问题的结构型一阶求解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

45+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

0+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

172+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

84+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

487+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

80+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

复杂视觉推理

相关VIP内容

【ICML2024】深度强化学习中的随机潜在探索

【ICML2024】深度强化学习中的随机潜在探索

专知会员服务

20+阅读 · 2024年7月19日

【ICML2024】多目标强化学习的最大-最小公式：从理论到无模型算法

【ICML2024】多目标强化学习的最大-最小公式：从理论到无模型算法

专知会员服务

43+阅读 · 2024年6月16日

【KDD2024】异质性知情的元参数学习用于时空时间序列预测

【KDD2024】异质性知情的元参数学习用于时空时间序列预测

专知会员服务

22+阅读 · 2024年5月22日

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

专知会员服务

21+阅读 · 2024年4月18日

【CVPR2024】通过丰富的监督增强视觉-语言预训练

【CVPR2024】通过丰富的监督增强视觉-语言预训练

专知会员服务

14+阅读 · 2024年3月7日

【NeurIPS2023】强化学习中的安全探索：一种通用化的公式和算法

【NeurIPS2023】强化学习中的安全探索：一种通用化的公式和算法

专知会员服务

34+阅读 · 2023年10月6日

【CVPR2022】以人为中心感知的多模态预训练

【CVPR2022】以人为中心感知的多模态预训练

专知会员服务

30+阅读 · 2022年3月28日

【IJCAI2021】复杂知识库问答研究: 方法、挑战与对策

【IJCAI2021】复杂知识库问答研究: 方法、挑战与对策

专知会员服务

56+阅读 · 2021年5月27日

【CVPR2021】针对场景图生成语义模糊性的概率性建模

专知会员服务

17+阅读 · 2021年4月27日

【EMNLP2020】利用文本和一阶逻辑中的声明知识进行细粒度的宣传手段检测

【EMNLP2020】利用文本和一阶逻辑中的声明知识进行细粒度的宣传手段检测

专知会员服务

13+阅读 · 2020年9月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《运用大语言模型支持空天防御系统工程项目》2025最新208页

《美空军转型：打造分布式空战力量以应对大国竞争》2025最新报告

消耗性无人机：认识战争演变中的技术特性与本质特征

《人体状态多模态推断·美陆军报告：风险环境下的认知追踪研究》2025最新100页

相关资讯

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

【CVPR2019】弱监督图像分类建模

【CVPR2019】弱监督图像分类建模

深度学习大讲堂

38+阅读 · 2019年7月25日

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

专知

18+阅读 · 2019年4月26日

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

专知

13+阅读 · 2018年6月18日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

相关基金

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

35+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模分布式一致性最优化问题的结构型一阶求解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

45+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

0+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

172+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

84+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

487+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

80+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员