【CVPR2023】NS3D：3D对象和关系的神经符号Grounding - 专知VIP

会员服务 ·

15

CVPR 2023 · 神经符号推理 ·

2023 年 3 月 26 日

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

将物体属性和关系在3D场景中进行Grounding是许多人工智能任务的前提条件，例如基于视觉的对话和具身化操作。然而，3D领域的可变性会导致两个基本挑战：1）标记的成本和 2）3D基础语言的复杂性。因此，模型的基本要求是具备数据效率，能够适应不同的数据分布和任务，具备对未见过语义形式的语义进行基础建设（例如，视点锚定和多对象引用）。为了解决这些挑战，我们提出了NS3D，一种用于3D Grounding的神经符号框架。NS3D通过利用大型语言转代码模型，将语言转化为具有层次结构的程序。程序中的不同功能模块是以神经网络的形式实现的。值得注意的是，NS3D通过引入有效推理高度元关系（即，多个对象之间的关系），扩展了先前的神经符号视觉推理方法，这在消除复杂3D场景中的对象歧义中非常关键。模块化和组合式的架构使NS3D能够在ReferIt3D视角依赖任务中取得最先进的结果，这是一个3D指称表达理解基准测试。重要的是，NS3D在数据效率和泛化性设置上显示出显着的改进性能，并展示了对一个未见过的3D问答任务的零样本转移能力。

https://www.zhuanzhi.ai/paper/4277142b07654c7d538a29dceb8c2088

成为VIP会员查看完整内容

22

相关内容

CVPR 2023

CVPR 2023大会将于 6 月 18 日至 22 日在温哥华会议中心举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。 CVPR 2023 共收到 9155 份提交，比去年增加了 12%，创下新纪录，今年接收了 2360 篇论文，接收率为 25.78%。作为对比，去年有 8100 多篇有效投稿，大会接收了 2067 篇，接收率为 25%。

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

专知会员服务

32+阅读 · 2023年4月25日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

【CVPR2023】MSeg3D:面向自动驾驶的多模态3D语义分割

【CVPR2023】MSeg3D:面向自动驾驶的多模态3D语义分割

专知会员服务

16+阅读 · 2023年3月17日

【CVPR2023】带缺失模态多模态提示的视觉识别

【CVPR2023】带缺失模态多模态提示的视觉识别

专知会员服务

23+阅读 · 2023年3月10日

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

专知会员服务

42+阅读 · 2023年2月27日

【迪肯大学博士论文】深度神经网络视觉推理

【迪肯大学博士论文】深度神经网络视觉推理

专知会员服务

47+阅读 · 2022年10月3日

【CVPR2022】以人为中心感知的多模态预训练

【CVPR2022】以人为中心感知的多模态预训练

专知会员服务

30+阅读 · 2022年3月28日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

17+阅读 · 2022年3月17日

【CVPR2022】双曲图像分割

【CVPR2022】双曲图像分割

专知会员服务

19+阅读 · 2022年3月14日

【NeurIPS2021】NeRV:视频的神经表示

【NeurIPS2021】NeRV:视频的神经表示

专知会员服务

12+阅读 · 2021年10月28日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

专知

1+阅读 · 2022年11月27日

AI再卷数学界，DSP新方法将机器证明成功率提高一倍

AI再卷数学界，DSP新方法将机器证明成功率提高一倍

机器之心

0+阅读 · 2022年11月20日

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

专知

5+阅读 · 2022年8月11日

人在房间里走了一圈，慕尼黑工业大学的研究推理出室内3D物体

人在房间里走了一圈，慕尼黑工业大学的研究推理出室内3D物体

机器之心

0+阅读 · 2022年7月26日

ACL 2022 | 跨模态离散化表示学习：让不同的模态共享相同的词表

ACL 2022 | 跨模态离散化表示学习：让不同的模态共享相同的词表

PaperWeekly

0+阅读 · 2022年7月8日

ICCV 2019 最佳论文《SinGAN：从单张自然图像学习生成式模型》中文全译

ICCV 2019 最佳论文《SinGAN：从单张自然图像学习生成式模型》中文全译

AI科技评论

11+阅读 · 2019年10月30日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

贾佳亚等提出Fast Point R-CNN，利用点云快速高效检测3D目标

贾佳亚等提出Fast Point R-CNN，利用点云快速高效检测3D目标

机器之心

11+阅读 · 2019年9月10日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

面向运动模糊的场景组织方法的研究

国家自然科学基金

0+阅读 · 2013年12月31日

视频的中层视觉表达和高层行为识别研究

国家自然科学基金

0+阅读 · 2013年12月31日

混合数据中模糊语言知识挖掘方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于影像遗传学的人脑默认网络及与情感和记忆神经环路的关系研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向自然语言的虚拟地理场景重构方法

国家自然科学基金

0+阅读 · 2012年12月31日

几何与制造语义关联驱动的三维工序数模构建方法

国家自然科学基金

1+阅读 · 2011年12月31日

动态时空推理研究

国家自然科学基金

3+阅读 · 2011年12月31日

视频选择性注意机理与语义特征提取

国家自然科学基金

1+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

基于中心扩展对齐的汉-英统计机器翻译研究

国家自然科学基金

1+阅读 · 2009年12月31日

Zero3D: Semantic-Driven Multi-Category 3D Shape Generation

Arxiv

0+阅读 · 2023年5月15日

Heuristic Weakly Supervised 3D Human Pose Estimation

Arxiv

0+阅读 · 2023年5月12日

WEDGE: A multi-weather autonomous driving dataset built from generative vision-language models

Arxiv

0+阅读 · 2023年5月12日

Truthful Two-Facility Location with Candidate Locations

Arxiv

0+阅读 · 2023年5月12日

WebCPM: Interactive Web Search for Chinese Long-form Question Answering

Arxiv

1+阅读 · 2023年5月11日

FactKG: Fact Verification via Reasoning on Knowledge Graphs

Arxiv

0+阅读 · 2023年5月11日

View Correspondence Network for Implicit Light Field Representation

Arxiv

0+阅读 · 2023年5月10日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Arxiv

12+阅读 · 2020年2月27日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

VIP会员

相关主题

神经符号推理

相关VIP内容

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

专知会员服务

32+阅读 · 2023年4月25日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

【CVPR2023】MSeg3D:面向自动驾驶的多模态3D语义分割

【CVPR2023】MSeg3D:面向自动驾驶的多模态3D语义分割

专知会员服务

16+阅读 · 2023年3月17日

【CVPR2023】带缺失模态多模态提示的视觉识别

【CVPR2023】带缺失模态多模态提示的视觉识别

专知会员服务

23+阅读 · 2023年3月10日

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

专知会员服务

42+阅读 · 2023年2月27日

【迪肯大学博士论文】深度神经网络视觉推理

【迪肯大学博士论文】深度神经网络视觉推理

专知会员服务

47+阅读 · 2022年10月3日

【CVPR2022】以人为中心感知的多模态预训练

【CVPR2022】以人为中心感知的多模态预训练

专知会员服务

30+阅读 · 2022年3月28日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

17+阅读 · 2022年3月17日

【CVPR2022】双曲图像分割

【CVPR2022】双曲图像分割

专知会员服务

19+阅读 · 2022年3月14日

【NeurIPS2021】NeRV:视频的神经表示

【NeurIPS2021】NeRV:视频的神经表示

专知会员服务

12+阅读 · 2021年10月28日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津大学博士论文】将序列结构与几何结构融入深度神经网络

工程视角：影响战争进程的小型无人机

企业级AI应用开发：从技术选型到生产落地

AI生成代码缺陷综述

相关资讯

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

专知

1+阅读 · 2022年11月27日

AI再卷数学界，DSP新方法将机器证明成功率提高一倍

AI再卷数学界，DSP新方法将机器证明成功率提高一倍

机器之心

0+阅读 · 2022年11月20日

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

专知

5+阅读 · 2022年8月11日

人在房间里走了一圈，慕尼黑工业大学的研究推理出室内3D物体

人在房间里走了一圈，慕尼黑工业大学的研究推理出室内3D物体

机器之心

0+阅读 · 2022年7月26日

ACL 2022 | 跨模态离散化表示学习：让不同的模态共享相同的词表

ACL 2022 | 跨模态离散化表示学习：让不同的模态共享相同的词表

PaperWeekly

0+阅读 · 2022年7月8日

ICCV 2019 最佳论文《SinGAN：从单张自然图像学习生成式模型》中文全译

ICCV 2019 最佳论文《SinGAN：从单张自然图像学习生成式模型》中文全译

AI科技评论

11+阅读 · 2019年10月30日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

贾佳亚等提出Fast Point R-CNN，利用点云快速高效检测3D目标

贾佳亚等提出Fast Point R-CNN，利用点云快速高效检测3D目标

机器之心

11+阅读 · 2019年9月10日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

相关基金

面向运动模糊的场景组织方法的研究

国家自然科学基金

0+阅读 · 2013年12月31日

视频的中层视觉表达和高层行为识别研究

国家自然科学基金

0+阅读 · 2013年12月31日

混合数据中模糊语言知识挖掘方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于影像遗传学的人脑默认网络及与情感和记忆神经环路的关系研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向自然语言的虚拟地理场景重构方法

国家自然科学基金

0+阅读 · 2012年12月31日

几何与制造语义关联驱动的三维工序数模构建方法

国家自然科学基金

1+阅读 · 2011年12月31日

动态时空推理研究

国家自然科学基金

3+阅读 · 2011年12月31日

视频选择性注意机理与语义特征提取

国家自然科学基金

1+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

基于中心扩展对齐的汉-英统计机器翻译研究

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

Zero3D: Semantic-Driven Multi-Category 3D Shape Generation

Arxiv

0+阅读 · 2023年5月15日

Heuristic Weakly Supervised 3D Human Pose Estimation

Arxiv

0+阅读 · 2023年5月12日

WEDGE: A multi-weather autonomous driving dataset built from generative vision-language models

Arxiv

0+阅读 · 2023年5月12日

Truthful Two-Facility Location with Candidate Locations

Arxiv

0+阅读 · 2023年5月12日

WebCPM: Interactive Web Search for Chinese Long-form Question Answering

Arxiv

1+阅读 · 2023年5月11日

FactKG: Fact Verification via Reasoning on Knowledge Graphs

Arxiv

0+阅读 · 2023年5月11日

View Correspondence Network for Implicit Light Field Representation

Arxiv

0+阅读 · 2023年5月10日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Arxiv

12+阅读 · 2020年2月27日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

微信扫码咨询专知VIP会员