The vision-language navigation (VLN) task requires an agent to reach a target with the guidance of natural language instruction. Previous works learn to navigate step-by-step following an instruction. However, these works may fail to discriminate the similarities and discrepancies across instruction-trajectory pairs and ignore the temporal continuity of sub-instructions. These problems hinder agents from learning distinctive vision-and-language representations, harming the robustness and generalizability of the navigation policy. In this paper, we propose a Contrastive Instruction-Trajectory Learning (CITL) framework that explores invariance across similar data samples and variance across different ones to learn distinctive representations for robust navigation. Specifically, we propose: (1) a coarse-grained contrastive learning objective to enhance vision-and-language representations by contrasting semantics of full trajectory observations and instructions, respectively; (2) a fine-grained contrastive learning objective to perceive instructions by leveraging the temporal information of the sub-instructions; (3) a pairwise sample-reweighting mechanism for contrastive learning to mine hard samples and hence mitigate the influence of data sampling bias in contrastive learning. Our CITL can be easily integrated with VLN backbones to form a new learning paradigm and achieve better generalizability in unseen environments. Extensive experiments show that the model with CITL surpasses the previous state-of-the-art methods on R2R, R4R, and RxR.


翻译:视觉语言导航(VLN)任务要求一种代理人在自然语言教学的指导下达到目标。以前的作品学会在教学后一步步逐步导航。但是,这些作品可能无法区分各教学轨对的异异和差异,忽视次教学的时间连续性。这些问题妨碍代理人学习独特的视觉和语言表现方式,损害导航政策的稳健性和可概括性。在本文中,我们提议了一个对比教学-方向学习(CITL)框架,以探索类似数据样本之间的差异和不同数据样本的差异,以了解强力导航的显著表现。具体地说,我们提议:(1) 一个粗略的对比学习目标,通过分别对比整个轨迹观察和指示的语义来强化视觉和语言的表现。(2) 一个细微对比学习目标,以利用子教学模式的时际信息来了解指导;(3) 一个对等学习地雷的硬样品和不同数据差异的对比性机制,从而减轻数据取样的明显差异性表现。我们提议:(1) 一个粗略对比的对比性对比性学习目标,在比较性C-R级实验中,以更清晰的基底学习方式更好地学习。

0
下载
关闭预览

相关内容

【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
76+阅读 · 2021年1月30日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
对比学习(Contrastive Learning)相关进展梳理
PaperWeekly
10+阅读 · 2020年5月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | Learning with Noise: Supervised Relation Extraction
开放知识图谱
3+阅读 · 2018年1月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
4+阅读 · 2021年10月19日
Arxiv
10+阅读 · 2021年3月30日
Arxiv
10+阅读 · 2021年2月26日
Arxiv
5+阅读 · 2020年10月21日
Arxiv
7+阅读 · 2020年10月9日
Arxiv
5+阅读 · 2020年10月2日
Arxiv
7+阅读 · 2020年8月7日
VIP会员
相关资讯
对比学习(Contrastive Learning)相关进展梳理
PaperWeekly
10+阅读 · 2020年5月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | Learning with Noise: Supervised Relation Extraction
开放知识图谱
3+阅读 · 2018年1月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Arxiv
4+阅读 · 2021年10月19日
Arxiv
10+阅读 · 2021年3月30日
Arxiv
10+阅读 · 2021年2月26日
Arxiv
5+阅读 · 2020年10月21日
Arxiv
7+阅读 · 2020年10月9日
Arxiv
5+阅读 · 2020年10月2日
Arxiv
7+阅读 · 2020年8月7日
Top
微信扫码咨询专知VIP会员