【TPAMI2023】视觉推理:从状态到转换 - 专知VIP

会员服务 ·

21

视觉推理 · IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI） ·

2023 年 8 月 14 日

【TPAMI2023】视觉推理:从状态到转换

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

现有的视觉推理任务，如VQA中的CLEVR，忽略了一个重要因素，即变换。这些任务仅旨在测试机器在静态环境中，如一个图像内，理解概念和关系的能力。这种基于状态的视觉推理无法反映出推断不同状态之间的动态变化的能力，而这在皮亚杰的理论中已被证明对于人类的认知同样重要。为了解决这个问题，我们提出了一个新颖的变换驱动视觉推理（TVR）任务。给定初始状态和最终状态，目标就是推断出相应的中间变换。基于这个定义，我们首先构建了一个基于CLEVR的新合成数据集，名为TRANCE，其中包括三个设置级别，即基础（单步变换）、事件（多步变换）和视图（带有不同视角的多步变换）。接下来，我们基于COIN构建了另一个真实数据集，名为TRANCO，以弥补TRANCE在变换多样性上的损失。受到人类推理的启发，我们提出了一个名为TranNet的三阶段推理框架，包括观察、分析和结论，以测试最近的高级技术在TVR上的表现。实验结果表明，最先进的视觉推理模型在基础上表现良好，但在事件、视图和TRANCO上仍然远远达不到人类水平的智能。我们相信，这一新提出的范式将促进机器视觉推理的发展。需要在这个方向上研究更先进的方法和新问题。TVR的资源可在https://hongxin2019.github.io/TVR/ 上获得。

成为VIP会员查看完整内容

37

相关内容

视觉推理

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

专知会员服务

32+阅读 · 2023年4月25日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知会员服务

28+阅读 · 2022年5月30日

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

17+阅读 · 2022年3月17日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【NeurIPS2021】对比主动推理

【NeurIPS2021】对比主动推理

专知会员服务

30+阅读 · 2021年10月21日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【ICML2021】探索图像分类的视觉概念形成

专知会员服务

22+阅读 · 2021年8月23日

【斯坦福Chelsea Finn】元学习:从少样本自适应到发现对称性

【斯坦福Chelsea Finn】元学习:从少样本自适应到发现对称性

专知会员服务

21+阅读 · 2021年3月4日

【机器推理可解释性】Machine Reasoning Explainability

【机器推理可解释性】Machine Reasoning Explainability

专知会员服务

35+阅读 · 2020年9月3日

【AAAI2023】视觉辅助的常识知识获取

【AAAI2023】视觉辅助的常识知识获取

专知

1+阅读 · 2022年11月28日

【苏黎世联邦理工博士论文】因果推断的混杂调整

【苏黎世联邦理工博士论文】因果推断的混杂调整

专知

4+阅读 · 2022年11月7日

直播预告 | KDD最佳论文：超图上的因果效应估计

直播预告 | KDD最佳论文：超图上的因果效应估计

图与推荐

0+阅读 · 2022年10月23日

【COLING2022教程】自然语言处理的不确定性估计教程

【COLING2022教程】自然语言处理的不确定性估计教程

专知

1+阅读 · 2022年10月17日

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

专知

2+阅读 · 2022年9月23日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

适应性记忆的认知与神经机制：生存加工和死亡提醒的双视角

国家自然科学基金

0+阅读 · 2016年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

精神分裂症的多尺度动态功能连接研究

国家自然科学基金

3+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

48+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

GRANDE: Gradient-Based Decision Tree Ensembles

Arxiv

0+阅读 · 2023年9月29日

On Learning with LAD

On Learning with LAD

Arxiv

0+阅读 · 2023年9月28日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Transformers in Remote Sensing: A Survey

Transformers in Remote Sensing: A Survey

Arxiv

25+阅读 · 2022年9月2日

On Neural Differential Equations

Arxiv

23+阅读 · 2022年2月4日

Transformer in Transformer

Arxiv

11+阅读 · 2021年10月26日

Dynamic Neural Networks: A Survey

Arxiv

37+阅读 · 2021年2月10日

VIP会员

相关主题

IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI）

相关VIP内容

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

专知会员服务

32+阅读 · 2023年4月25日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知会员服务

28+阅读 · 2022年5月30日

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

17+阅读 · 2022年3月17日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【NeurIPS2021】对比主动推理

【NeurIPS2021】对比主动推理

专知会员服务

30+阅读 · 2021年10月21日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【ICML2021】探索图像分类的视觉概念形成

专知会员服务

22+阅读 · 2021年8月23日

【斯坦福Chelsea Finn】元学习:从少样本自适应到发现对称性

【斯坦福Chelsea Finn】元学习:从少样本自适应到发现对称性

专知会员服务

21+阅读 · 2021年3月4日

【机器推理可解释性】Machine Reasoning Explainability

【机器推理可解释性】Machine Reasoning Explainability

专知会员服务

35+阅读 · 2020年9月3日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

【AAAI2023】视觉辅助的常识知识获取

【AAAI2023】视觉辅助的常识知识获取

专知

1+阅读 · 2022年11月28日

【苏黎世联邦理工博士论文】因果推断的混杂调整

【苏黎世联邦理工博士论文】因果推断的混杂调整

专知

4+阅读 · 2022年11月7日

直播预告 | KDD最佳论文：超图上的因果效应估计

直播预告 | KDD最佳论文：超图上的因果效应估计

图与推荐

0+阅读 · 2022年10月23日

【COLING2022教程】自然语言处理的不确定性估计教程

【COLING2022教程】自然语言处理的不确定性估计教程

专知

1+阅读 · 2022年10月17日

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

专知

2+阅读 · 2022年9月23日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

适应性记忆的认知与神经机制：生存加工和死亡提醒的双视角

国家自然科学基金

0+阅读 · 2016年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

精神分裂症的多尺度动态功能连接研究

国家自然科学基金

3+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

48+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

相关论文

GRANDE: Gradient-Based Decision Tree Ensembles

Arxiv

0+阅读 · 2023年9月29日

On Learning with LAD

On Learning with LAD

Arxiv

0+阅读 · 2023年9月28日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Transformers in Remote Sensing: A Survey

Transformers in Remote Sensing: A Survey

Arxiv

25+阅读 · 2022年9月2日

On Neural Differential Equations

Arxiv

23+阅读 · 2022年2月4日

Transformer in Transformer

Arxiv

11+阅读 · 2021年10月26日

Dynamic Neural Networks: A Survey

Arxiv

37+阅读 · 2021年2月10日

微信扫码咨询专知VIP会员