Natural language instructions for visual navigation often use scene descriptions (e.g., "bedroom") and object references (e.g., "green chairs") to provide a breadcrumb trail to a goal location. This work presents a transformer-based vision-and-language navigation (VLN) agent that uses two different visual encoders -- a scene classification network and an object detector -- which produce features that match these two distinct types of visual cues. In our method, scene features contribute high-level contextual information that supports object-level processing. With this design, our model is able to use vision-and-language pretraining (i.e., learning the alignment between images and text from large-scale web data) to substantially improve performance on the Room-to-Room (R2R) and Room-Across-Room (RxR) benchmarks. Specifically, our approach leads to improvements of 1.8% absolute in SPL on R2R and 3.7% absolute in SR on RxR. Our analysis reveals even larger gains for navigation instructions that contain six or more object references, which further suggests that our approach is better able to use object features and align them to references in the instructions.


翻译:视觉导航的自然语言说明经常使用场景描述(例如“卧室”)和对象参考(例如“绿椅”)来提供通往目标位置的面包屑线索。这项工作展示了一种基于变压器的视觉和语言导航(VLN)代理,使用两种不同的视觉编码器 -- -- 现场分类网络和物体探测器 -- -- 产生与这两种不同类型视觉提示相匹配的特征。在我们的方法中,场景特征提供了支持目标级别处理的高水平背景信息。根据这种设计,我们的模型能够使用视觉和语言预培训(即学习大型网络数据图像和文字之间的对齐),以大大改进从房间到房间(R2R)和跨房间(RxR)基准的性能。具体地说,我们的方法使得R2R的SPL绝对值和RxR的SR绝对值提高了1.7%。我们的分析显示,导航指示中包含6个或更多对象参考值的更大收益,这进一步表明我们的方法能够更好地使用物体的特性和指示。

1
下载
关闭预览

相关内容

IEEE信号处理信函(SPL)是每月一次的存档出版物,旨在快速传播原始的,最先进的想法,并在信号,图像,语音,语言和音频处理方面提供及时、重要的贡献。 官网地址:http://dblp.uni-trier.de/db/journals/spl/
专知会员服务
29+阅读 · 2021年7月30日
最新《Transformers模型》教程,64页ppt
专知会员服务
298+阅读 · 2020年11月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
163+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
已删除
将门创投
5+阅读 · 2018年10月16日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Arxiv
0+阅读 · 2021年12月24日
Arxiv
8+阅读 · 2021年11月14日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
5+阅读 · 2018年10月15日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
已删除
将门创投
5+阅读 · 2018年10月16日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Top
微信扫码咨询专知VIP会员