Visual navigation for autonomous agents is a core task in the fields of computer vision and robotics. Learning-based methods, such as deep reinforcement learning, have the potential to outperform the classical solutions developed for this task; however, they come at a significantly increased computational load. Through this work, we design a novel approach that focuses on performing better or comparable to the existing learning-based solutions but under a clear time/computational budget. To this end, we propose a method to encode vital scene semantics such as traversable paths, unexplored areas, and observed scene objects -- alongside raw visual streams such as RGB, depth, and semantic segmentation masks -- into a semantically informed, top-down egocentric map representation. Further, to enable the effective use of this information, we introduce a novel 2-D map attention mechanism, based on the successful multi-layer Transformer networks. We conduct experiments on 3-D reconstructed indoor PointGoal visual navigation and demonstrate the effectiveness of our approach. We show that by using our novel attention schema and auxiliary rewards to better utilize scene semantics, we outperform multiple baselines trained with only raw inputs or implicit semantic information while operating with an 80% decrease in the agent's experience.


翻译:自动代理器的视觉导航是计算机视觉和机器人领域的一项核心任务。 深强化学习等基于学习的方法有可能超越为这一任务开发的古典解决方案; 但是,这些方法的计算负荷明显增加。 通过这项工作,我们设计了一种新颖的方法,侧重于更好或与现有的基于学习的解决方案相仿,但以明确的时间/计算预算为基础。 为此,我们提出一种方法,将重要现场语义,如可穿行路径、未探索区域以及观测到的景象物体 -- -- 连同原始视觉流,如RGB、深度和语义分解掩码等 -- -- 整合成一个自上至下以自我为中心的语义表达式典型解决方案。 此外,为了能够有效地使用这些信息,我们根据成功的多层次变换网络,引入了一个新的2D地图关注机制。 我们进行了3D重建的室内点目标视觉导航实验,并展示了我们的方法的有效性。 我们展示了利用我们的新式的注意力和辅助奖赏, 来更好地利用现场语义学、 深度和语义面分隔面面遮掩体, 我们用了80 隐含的基底基底基线, 。

0
下载
关闭预览

相关内容

专知会员服务
20+阅读 · 2021年4月2日
专知会员服务
8+阅读 · 2020年12月10日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
语义分割中的Attention和低秩重建
极市平台
37+阅读 · 2019年9月1日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
5+阅读 · 2018年10月15日
VIP会员
相关VIP内容
专知会员服务
20+阅读 · 2021年4月2日
专知会员服务
8+阅读 · 2020年12月10日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
相关资讯
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
语义分割中的Attention和低秩重建
极市平台
37+阅读 · 2019年9月1日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员