视觉与语言导航(VLN)任务主要通过在多个环境中执行单次指令来评估智能体,旨在开发能够在任何环境中以零-shot方式运行的智能体。然而,现实世界中的导航机器人通常在具有相对一致的物理布局、视觉观察和来自指导者的语言风格的持久性环境中运行。任务设置中的这种差距为通过将持续适应特定环境纳入其中来改进VLN智能体提供了机会。为了更好地反映这些现实世界条件,我们提出了GSA-VLN(视觉与语言导航的通用场景适应),这是一项新的任务,要求智能体在特定场景中执行导航指令,并同时适应该场景,以提高随时间推移的性能。为了评估提出的任务,必须解决现有VLN数据集中的两个挑战:缺乏分布外(OOD)数据,以及每个场景中指令数量和风格的多样性有限。因此,我们提出了一个新数据集——GSA-R2R,显著扩展了Room-to-Room(R2R)数据集的环境和指令的多样性和数量,以评估智能体在ID和OOD环境中的适应性。此外,我们设计了一个三阶段指令编排流程,该流程利用大型语言模型(LLMs)来优化生成的指令,并应用角色扮演技术将指令转化为不同的说话风格。这一做法的动机来自于观察到每个用户在指令中通常都有一致的特征或偏好,以家用机器人助手为例。我们在GSA-R2R数据集上进行了大量实验,全面评估了我们的数据集并基准了各种方法,揭示了促使智能体适应特定环境的关键因素。基于我们的研究结果,我们提出了一种新的方法——Graph-Retained DUET(GR-DUET),该方法结合了基于记忆的导航图和特定环境的训练策略,在所有GSA-R2R数据集分割上实现了最先进的结果。数据集和代码可以在https://github.com/honghd16/GSA-VLN找到。

成为VIP会员查看完整内容
0

相关内容

【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题
专知会员服务
18+阅读 · 2024年7月21日
【NeurIPS2023】大型预训练模型的等变自适应
专知会员服务
32+阅读 · 2023年10月4日
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
专知会员服务
23+阅读 · 2023年3月30日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
专知会员服务
10+阅读 · 2021年10月6日
专知会员服务
36+阅读 · 2021年9月15日
专知会员服务
15+阅读 · 2021年8月2日
专知会员服务
39+阅读 · 2021年5月16日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题
专知会员服务
18+阅读 · 2024年7月21日
【NeurIPS2023】大型预训练模型的等变自适应
专知会员服务
32+阅读 · 2023年10月4日
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
专知会员服务
23+阅读 · 2023年3月30日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
专知会员服务
10+阅读 · 2021年10月6日
专知会员服务
36+阅读 · 2021年9月15日
专知会员服务
15+阅读 · 2021年8月2日
专知会员服务
39+阅读 · 2021年5月16日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
相关论文
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员