【CVPR2023】KERM:面向视觉语言导航的知识增强推理 - 专知VIP

会员服务 ·

9

CVPR 2023 · KERM · 视觉语言导航 ·

2023 年 3 月 30 日

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视觉-语言导航(VLN)是使具身智能体在真实场景中按照自然语言指令导航到远程位置的任务。以往的方法大多利用整个特征或以对象为中心的特征来表示可导航的候选特征。然而，这些表示不足以使智能体执行动作以到达目标位置。**由于知识提供了与可见内容相补充的重要信息，本文提出了一种知识增强的推理模型(knowledge Enhanced Reasoning Model, KERM)来利用知识来提高智能体的导航能力。**具体来说，首先从构建的知识库中检索基于局部区域的导航视图的事实(即语言描述的知识);检索到的事实范围从单个对象的属性(如颜色、形状)到对象之间的关系(如动作、空间位置)，为VLN提供了重要信息。进一步提出了KERM，包含净化、事实感知交互和指令引导的聚合模块，以集成视觉、历史、指令和事实特征。所提出的KERM可以自动选择和收集关键和相关的线索，获得更准确的动作预测。在REVERIE、R2R和SOON数据集上的实验结果验证了所提方法的有效性。源代码可以在https://github.com/XiangyangLi20/KERM上找到。

成为VIP会员查看完整内容

24

相关内容

CVPR 2023

CVPR 2023大会将于 6 月 18 日至 22 日在温哥华会议中心举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。 CVPR 2023 共收到 9155 份提交，比去年增加了 12%，创下新纪录，今年接收了 2360 篇论文，接收率为 25.78%。作为对比，去年有 8100 多篇有效投稿，大会接收了 2067 篇，接收率为 25%。

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

专知会员服务

38+阅读 · 2023年3月6日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【CVPR2022】OakInk:理解手-物体交互的大规模知识库

【CVPR2022】OakInk:理解手-物体交互的大规模知识库

专知会员服务

15+阅读 · 2022年4月6日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【CVPR2021】针对场景图生成语义模糊性的概率性建模

专知会员服务

17+阅读 · 2021年4月27日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知会员服务

22+阅读 · 2021年2月17日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知

1+阅读 · 2023年4月10日

【AAAI2023】基于历史对比学习的时序知识图谱推理

【AAAI2023】基于历史对比学习的时序知识图谱推理

专知

3+阅读 · 2022年11月23日

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

PaperWeekly

1+阅读 · 2022年10月14日

AAAI 2022 | MAVEx—基于知识的视觉问答方法

AAAI 2022 | MAVEx—基于知识的视觉问答方法

PaperWeekly

3+阅读 · 2022年10月8日

论文浅尝 | C3KG：中文常识对话知识图谱

论文浅尝 | C3KG：中文常识对话知识图谱

开放知识图谱

2+阅读 · 2022年8月18日

ACL 2022 | 基于自监督图对齐的多语言知识图谱推理

ACL 2022 | 基于自监督图对齐的多语言知识图谱推理

图与推荐

0+阅读 · 2022年6月21日

CVPR 2022 Oral | 视频文本预训练新SOTA！港大&腾讯推出基于多项选择题的借口任务

CVPR 2022 Oral | 视频文本预训练新SOTA！港大&腾讯推出基于多项选择题的借口任务

CVer

0+阅读 · 2022年6月2日

ACL 2022 | 基于事理图谱增强的BERT模型的事件预测

ACL 2022 | 基于事理图谱增强的BERT模型的事件预测

专知

1+阅读 · 2022年5月30日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知

12+阅读 · 2021年2月18日

【清华大学】元知识图谱推理

【清华大学】元知识图谱推理

专知

129+阅读 · 2019年9月2日

图像标签关联性模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

颜色-运动特征的绑定与视觉意识的关系

国家自然科学基金

0+阅读 · 2013年12月31日

面向人类视觉感知的高分辨率遥感图像检索研究

国家自然科学基金

0+阅读 · 2012年12月31日

地理信息检索中语境的获取、推理及应用

国家自然科学基金

6+阅读 · 2012年12月31日

对象模型上交互式修复生成技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于语义与QoS感知的空间信息服务发现方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于多粒度视频基元的中国手语合成方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向网络舆论的动态本体学习模型研究

国家自然科学基金

4+阅读 · 2010年12月31日

基于本体的深层网络数据集成方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

基于NAM的动态视觉信息认知理解方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Annotation-free Audio-Visual Segmentation

Arxiv

0+阅读 · 2023年5月19日

Discovering Individual Rewards in Collective Behavior through Inverse Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2023年5月17日

Scratch Copilot Evaluation: Assessing AI-Assisted Creative Coding for Families

Arxiv

0+阅读 · 2023年5月17日

A constructive proof of Skolem theorem for constructive logic

Arxiv

0+阅读 · 2023年5月17日

Analysis of Pleasantness Evoked by Various Airborne Ultrasound Tactile Stimuli Using Pairwise Comparisons and the Bradley-Terry Model

Arxiv

0+阅读 · 2023年5月16日

Knowledge Distillation for Object Detection via Rank Mimicking and Prediction-guided Feature Imitation

Arxiv

11+阅读 · 2021年12月9日

Unifying Vision-and-Language Tasks via Text Generation

Arxiv

10+阅读 · 2021年2月4日

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Arxiv

19+阅读 · 2020年3月31日

Few-Shot Knowledge Graph Completion

Arxiv

15+阅读 · 2019年11月26日

Cross-lingual Knowledge Graph Alignment via Graph Matching Neural Network

Arxiv

15+阅读 · 2019年5月28日

VIP会员

相关主题

视觉语言导航

相关VIP内容

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

专知会员服务

38+阅读 · 2023年3月6日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【CVPR2022】OakInk:理解手-物体交互的大规模知识库

【CVPR2022】OakInk:理解手-物体交互的大规模知识库

专知会员服务

15+阅读 · 2022年4月6日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【CVPR2021】针对场景图生成语义模糊性的概率性建模

专知会员服务

17+阅读 · 2021年4月27日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知会员服务

22+阅读 · 2021年2月17日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

多模态大语言模型下游调优中“保持自我”的重要性

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

相关资讯

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知

1+阅读 · 2023年4月10日

【AAAI2023】基于历史对比学习的时序知识图谱推理

【AAAI2023】基于历史对比学习的时序知识图谱推理

专知

3+阅读 · 2022年11月23日

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

PaperWeekly

1+阅读 · 2022年10月14日

AAAI 2022 | MAVEx—基于知识的视觉问答方法

AAAI 2022 | MAVEx—基于知识的视觉问答方法

PaperWeekly

3+阅读 · 2022年10月8日

论文浅尝 | C3KG：中文常识对话知识图谱

论文浅尝 | C3KG：中文常识对话知识图谱

开放知识图谱

2+阅读 · 2022年8月18日

ACL 2022 | 基于自监督图对齐的多语言知识图谱推理

ACL 2022 | 基于自监督图对齐的多语言知识图谱推理

图与推荐

0+阅读 · 2022年6月21日

CVPR 2022 Oral | 视频文本预训练新SOTA！港大&腾讯推出基于多项选择题的借口任务

CVPR 2022 Oral | 视频文本预训练新SOTA！港大&腾讯推出基于多项选择题的借口任务

CVer

0+阅读 · 2022年6月2日

ACL 2022 | 基于事理图谱增强的BERT模型的事件预测

ACL 2022 | 基于事理图谱增强的BERT模型的事件预测

专知

1+阅读 · 2022年5月30日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知

12+阅读 · 2021年2月18日

【清华大学】元知识图谱推理

【清华大学】元知识图谱推理

专知

129+阅读 · 2019年9月2日

相关基金

图像标签关联性模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

颜色-运动特征的绑定与视觉意识的关系

国家自然科学基金

0+阅读 · 2013年12月31日

面向人类视觉感知的高分辨率遥感图像检索研究

国家自然科学基金

0+阅读 · 2012年12月31日

地理信息检索中语境的获取、推理及应用

国家自然科学基金

6+阅读 · 2012年12月31日

对象模型上交互式修复生成技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于语义与QoS感知的空间信息服务发现方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于多粒度视频基元的中国手语合成方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向网络舆论的动态本体学习模型研究

国家自然科学基金

4+阅读 · 2010年12月31日

基于本体的深层网络数据集成方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

基于NAM的动态视觉信息认知理解方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Annotation-free Audio-Visual Segmentation

Arxiv

0+阅读 · 2023年5月19日

Discovering Individual Rewards in Collective Behavior through Inverse Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2023年5月17日

Scratch Copilot Evaluation: Assessing AI-Assisted Creative Coding for Families

Arxiv

0+阅读 · 2023年5月17日

A constructive proof of Skolem theorem for constructive logic

Arxiv

0+阅读 · 2023年5月17日

Analysis of Pleasantness Evoked by Various Airborne Ultrasound Tactile Stimuli Using Pairwise Comparisons and the Bradley-Terry Model

Arxiv

0+阅读 · 2023年5月16日

Knowledge Distillation for Object Detection via Rank Mimicking and Prediction-guided Feature Imitation

Arxiv

11+阅读 · 2021年12月9日

Unifying Vision-and-Language Tasks via Text Generation

Arxiv

10+阅读 · 2021年2月4日

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Arxiv

19+阅读 · 2020年3月31日

Few-Shot Knowledge Graph Completion

Arxiv

15+阅读 · 2019年11月26日

Cross-lingual Knowledge Graph Alignment via Graph Matching Neural Network

Arxiv

15+阅读 · 2019年5月28日

微信扫码咨询专知VIP会员