进化拓扑规划的视觉语言导航在连续环境中的应用（ETPNav） (ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments) - 专知论文

会员服务 ·

0

视觉语言导航 · 控制器 · 路径 · 智能体 · 启发式方法 ·

2023 年 4 月 7 日

ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments

翻译：进化拓扑规划的视觉语言导航在连续环境中的应用（ETPNav）

Dong An,Hanqing Wang,Wenguan Wang,Zun Wang,Yan Huang,Keji He,Liang Wang

from arxiv, Project page: https://github.com/MarSaKi/ETPNav

Vision-language navigation is a task that requires an agent to follow instructions to navigate in environments. It becomes increasingly crucial in the field of embodied AI, with potential applications in autonomous navigation, search and rescue, and human-robot interaction. In this paper, we propose to address a more practical yet challenging counterpart setting - vision-language navigation in continuous environments (VLN-CE). To develop a robust VLN-CE agent, we propose a new navigation framework, ETPNav, which focuses on two critical skills: 1) the capability to abstract environments and generate long-range navigation plans, and 2) the ability of obstacle-avoiding control in continuous environments. ETPNav performs online topological mapping of environments by self-organizing predicted waypoints along a traversed path, without prior environmental experience. It privileges the agent to break down the navigation procedure into high-level planning and low-level control. Concurrently, ETPNav utilizes a transformer-based cross-modal planner to generate navigation plans based on topological maps and instructions. The plan is then performed through an obstacle-avoiding controller that leverages a trial-and-error heuristic to prevent navigation from getting stuck in obstacles. Experimental results demonstrate the effectiveness of the proposed method. ETPNav yields more than 10% and 20% improvements over prior state-of-the-art on R2R-CE and RxR-CE datasets, respectively. Our code is available at https://github.com/MarSaKi/ETPNav.

翻译：视觉语言导航是一项需要智能体遵循指示在环境中进行导航的任务。在体验式AI领域中越来越重要，有望应用于自主导航，搜救和人机交互等领域。本文提出了一个更加实用但具有挑战性的对应设置视觉语言导航的系统-连续环境下（VLN-CE）。为了开发强大的VLN-CE智能体，我们提出了一个新的导航框架-ETPNav，该框架专注于两个关键技能：1）能够对环境进行抽象并生成长距离导航计划，2）在连续环境中避免障碍物的控制能力。ETPNav通过自组织预测的路径点沿行进路径进行在线拓扑映射而不需要先前的环境经验。它能够将导航过程分解为高水平规划和低级别控制。同时，ETPNav利用一个基于Transformer的跨模态规划器，根据拓扑地图和指令生成导航计划。计划随后通过一种避免障碍物的控制器执行，该控制器利用试错启发式方法防止导航被卡在障碍物中。实验结果证明了所提出方法的有效性。ETPNav比R2R-CE和RxR-CE数据集上的先前最先进技术分别提高了超过10％和20％。我们的代码可在https://github.com/MarSaKi/ETPNav上找到。

1

相关内容

视觉语言导航

视觉语言导航

【RecSys22教程】多阶段推荐系统的神经重排序，90页ppt

【RecSys22教程】多阶段推荐系统的神经重排序，90页ppt

专知会员服务

27+阅读 · 2022年9月30日

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

专知会员服务

231+阅读 · 2022年4月10日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知会员服务

165+阅读 · 2022年4月10日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

23+阅读 · 2022年3月19日

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

专知会员服务

45+阅读 · 2022年3月6日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

专知会员服务

38+阅读 · 2020年4月13日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

专知会员服务

32+阅读 · 2019年10月12日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位

【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位

泡泡机器人SLAM

15+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

AI研习社

15+阅读 · 2019年5月8日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

泡泡机器人SLAM

22+阅读 · 2018年12月4日

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

泡泡机器人SLAM

29+阅读 · 2018年10月28日

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

泡泡机器人SLAM

12+阅读 · 2018年4月17日

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

泡泡机器人SLAM

16+阅读 · 2017年12月31日

基于地形辅助的深海长航时ARV自主导航技术研究

国家自然科学基金

12+阅读 · 2017年12月31日

具有路径约束非线性系统的最优控制及其在机器人系统中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

浮游植物群落结构对水情动态变化响应的区域湖沼学研究

国家自然科学基金

0+阅读 · 2013年12月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

非自治随机格点动力系统的渐近行为

国家自然科学基金

0+阅读 · 2013年12月31日

随机泛函微分方程的适定性与渐近性分析

国家自然科学基金

0+阅读 · 2012年12月31日

平面多项式微分方程的极限环和周期函数的单调性

国家自然科学基金

0+阅读 · 2011年12月31日

Plug-In混合动力汽车能量管理及动力系统优化问题研究

国家自然科学基金

1+阅读 · 2008年12月31日

平面微分系统的中心问题与极限环分支

国家自然科学基金

0+阅读 · 2008年12月31日

常微分方程与动力系统的分支理论和应用

国家自然科学基金

0+阅读 · 2008年12月31日

Towards Parameter-Efficient Integration of Pre-Trained Language Models In Temporal Video Grounding

Arxiv

0+阅读 · 2023年5月25日

Trends and Challenges Towards an Effective Data-Driven Decision Making in UK SMEs: Case Studies and Lessons Learnt from the Analysis of 85 SMEs

Arxiv

0+阅读 · 2023年5月24日

Learning from demonstrations: An intuitive VR environment for imitation learning of construction robots

Arxiv

0+阅读 · 2023年5月23日

TalkUp: A Novel Dataset Paving the Way for Understanding Empowering Language

Arxiv

0+阅读 · 2023年5月23日

Large Language Models as Commonsense Knowledge for Large-Scale Task Planning

Arxiv

0+阅读 · 2023年5月23日

Towards Responsible AI in the Era of ChatGPT: A Reference Architecture for Designing Foundation Model-based AI Systems

Arxiv

0+阅读 · 2023年5月23日

A framework to measure the robustness of programs in the unpredictable environment

Arxiv

0+阅读 · 2023年5月23日

A Survey on Deep Reinforcement Learning for Data Processing and Analytics

Arxiv

24+阅读 · 2022年2月4日

Building Intelligent Autonomous Navigation Agents

Arxiv

24+阅读 · 2021年6月25日

Heterogeneous Noisy Short Signal Camouflage in Multi-Domain Environment Decision-Making

Arxiv

34+阅读 · 2021年6月2日

VIP会员

文章信息

相关主题

视觉语言导航

启发式方法

相关VIP内容

【RecSys22教程】多阶段推荐系统的神经重排序，90页ppt

【RecSys22教程】多阶段推荐系统的神经重排序，90页ppt

专知会员服务

27+阅读 · 2022年9月30日

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

专知会员服务

231+阅读 · 2022年4月10日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知会员服务

165+阅读 · 2022年4月10日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

23+阅读 · 2022年3月19日

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

专知会员服务

45+阅读 · 2022年3月6日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

专知会员服务

38+阅读 · 2020年4月13日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

专知会员服务

32+阅读 · 2019年10月12日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《算法战争研究计划全景评估》35页

《分层多智能体系统分类：设计范式、协调机制与工业应用》最新28页

智能体战争：自主人工智能军备竞赛全景透视

《太空对抗中未知追踪者目标下的规避策略研究》122页

相关资讯

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位

【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位

泡泡机器人SLAM

15+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

AI研习社

15+阅读 · 2019年5月8日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

泡泡机器人SLAM

22+阅读 · 2018年12月4日

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

泡泡机器人SLAM

29+阅读 · 2018年10月28日

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

泡泡机器人SLAM

12+阅读 · 2018年4月17日

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

泡泡机器人SLAM

16+阅读 · 2017年12月31日

相关论文

Towards Parameter-Efficient Integration of Pre-Trained Language Models In Temporal Video Grounding

Arxiv

0+阅读 · 2023年5月25日

Trends and Challenges Towards an Effective Data-Driven Decision Making in UK SMEs: Case Studies and Lessons Learnt from the Analysis of 85 SMEs

Arxiv

0+阅读 · 2023年5月24日

Learning from demonstrations: An intuitive VR environment for imitation learning of construction robots

Arxiv

0+阅读 · 2023年5月23日

TalkUp: A Novel Dataset Paving the Way for Understanding Empowering Language

Arxiv

0+阅读 · 2023年5月23日

Large Language Models as Commonsense Knowledge for Large-Scale Task Planning

Arxiv

0+阅读 · 2023年5月23日

Towards Responsible AI in the Era of ChatGPT: A Reference Architecture for Designing Foundation Model-based AI Systems

Arxiv

0+阅读 · 2023年5月23日

A framework to measure the robustness of programs in the unpredictable environment

Arxiv

0+阅读 · 2023年5月23日

A Survey on Deep Reinforcement Learning for Data Processing and Analytics

Arxiv

24+阅读 · 2022年2月4日

Building Intelligent Autonomous Navigation Agents

Arxiv

24+阅读 · 2021年6月25日

Heterogeneous Noisy Short Signal Camouflage in Multi-Domain Environment Decision-Making

Arxiv

34+阅读 · 2021年6月2日

相关基金

基于地形辅助的深海长航时ARV自主导航技术研究

国家自然科学基金

12+阅读 · 2017年12月31日

具有路径约束非线性系统的最优控制及其在机器人系统中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

浮游植物群落结构对水情动态变化响应的区域湖沼学研究

国家自然科学基金

0+阅读 · 2013年12月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

非自治随机格点动力系统的渐近行为

国家自然科学基金

0+阅读 · 2013年12月31日

随机泛函微分方程的适定性与渐近性分析

国家自然科学基金

0+阅读 · 2012年12月31日

平面多项式微分方程的极限环和周期函数的单调性

国家自然科学基金

0+阅读 · 2011年12月31日

Plug-In混合动力汽车能量管理及动力系统优化问题研究

国家自然科学基金

1+阅读 · 2008年12月31日

平面微分系统的中心问题与极限环分支

国家自然科学基金

0+阅读 · 2008年12月31日

常微分方程与动力系统的分支理论和应用

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员