【ICLR2025】视觉与语言导航的通用场景适应 - 专知VIP

会员服务 ·

0

ICLR 2025 · 视觉语言导航 · 分布外泛化 ·

【ICLR2025】视觉与语言导航的通用场景适应

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视觉与语言导航（VLN）任务主要通过在多个环境中执行单次指令来评估智能体，旨在开发能够在任何环境中以零-shot方式运行的智能体。然而，现实世界中的导航机器人通常在具有相对一致的物理布局、视觉观察和来自指导者的语言风格的持久性环境中运行。任务设置中的这种差距为通过将持续适应特定环境纳入其中来改进VLN智能体提供了机会。为了更好地反映这些现实世界条件，我们提出了GSA-VLN（视觉与语言导航的通用场景适应），这是一项新的任务，要求智能体在特定场景中执行导航指令，并同时适应该场景，以提高随时间推移的性能。为了评估提出的任务，必须解决现有VLN数据集中的两个挑战：缺乏分布外（OOD）数据，以及每个场景中指令数量和风格的多样性有限。因此，我们提出了一个新数据集——GSA-R2R，显著扩展了Room-to-Room（R2R）数据集的环境和指令的多样性和数量，以评估智能体在ID和OOD环境中的适应性。此外，我们设计了一个三阶段指令编排流程，该流程利用大型语言模型（LLMs）来优化生成的指令，并应用角色扮演技术将指令转化为不同的说话风格。这一做法的动机来自于观察到每个用户在指令中通常都有一致的特征或偏好，以家用机器人助手为例。我们在GSA-R2R数据集上进行了大量实验，全面评估了我们的数据集并基准了各种方法，揭示了促使智能体适应特定环境的关键因素。基于我们的研究结果，我们提出了一种新的方法——Graph-Retained DUET（GR-DUET），该方法结合了基于记忆的导航图和特定环境的训练策略，在所有GSA-R2R数据集分割上实现了最先进的结果。数据集和代码可以在https://github.com/honghd16/GSA-VLN找到。

成为VIP会员查看完整内容

0

相关内容

ICLR 2025

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

19+阅读 · 2024年10月11日

【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题

【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题

专知会员服务

18+阅读 · 2024年7月21日

【NeurIPS2023】大型预训练模型的等变自适应

【NeurIPS2023】大型预训练模型的等变自适应

专知会员服务

32+阅读 · 2023年10月4日

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

专知会员服务

23+阅读 · 2023年3月30日

【NAACL2022】自然语言处理的对比数据与学习

【NAACL2022】自然语言处理的对比数据与学习

专知会员服务

46+阅读 · 2022年7月10日

【ICCV2021】基于对比视频表示学习的长短视图特征分解

专知会员服务

10+阅读 · 2021年10月6日

【ICCV2021】用于群体行为识别的动态时空推理网络

专知会员服务

36+阅读 · 2021年9月15日

【ACL2021】可学习知识引导的事件因果关系识别数据增强方法

专知会员服务

34+阅读 · 2021年8月11日

【ICCV2021】基于耦合语义注意力的弱监督目标定位

专知会员服务

15+阅读 · 2021年8月2日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

37+阅读 · 2023年4月13日

【ICLR2022】图神经网络复杂时间序列建模以及医疗健康应用

【ICLR2022】图神经网络复杂时间序列建模以及医疗健康应用

专知

10+阅读 · 2022年4月15日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

26+阅读 · 2021年1月25日

【KDD2020】动态知识图谱的多事件预测

【KDD2020】动态知识图谱的多事件预测

专知

88+阅读 · 2020年8月31日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

19+阅读 · 2020年5月26日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

语义Web知识库补全关键技术研究

国家自然科学基金

13+阅读 · 2017年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

信息系统直接使用与间接使用—探索基于社会权力视角的前因及其对工作绩效的影响

国家自然科学基金

1+阅读 · 2015年12月31日

机会物联网基于命名数据网络的信息检索机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

164+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

97+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

190+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

425+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

22+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

68+阅读 · 2022年9月7日

Deep Reinforcement Learning for Multi-Agent Interaction

Arxiv

42+阅读 · 2022年8月2日

Dynamic neighbourhood optimisation for task allocation using multi-agent

Arxiv

99+阅读 · 2022年5月11日

Heterogeneous Deep Graph Infomax

Heterogeneous Deep Graph Infomax

Arxiv

12+阅读 · 2019年11月19日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

VIP会员

相关主题

视觉语言导航

分布外泛化

相关VIP内容

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

19+阅读 · 2024年10月11日

【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题

【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题

专知会员服务

18+阅读 · 2024年7月21日

【NeurIPS2023】大型预训练模型的等变自适应

【NeurIPS2023】大型预训练模型的等变自适应

专知会员服务

32+阅读 · 2023年10月4日

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

专知会员服务

23+阅读 · 2023年3月30日

【NAACL2022】自然语言处理的对比数据与学习

【NAACL2022】自然语言处理的对比数据与学习

专知会员服务

46+阅读 · 2022年7月10日

【ICCV2021】基于对比视频表示学习的长短视图特征分解

专知会员服务

10+阅读 · 2021年10月6日

【ICCV2021】用于群体行为识别的动态时空推理网络

专知会员服务

36+阅读 · 2021年9月15日

【ACL2021】可学习知识引导的事件因果关系识别数据增强方法

专知会员服务

34+阅读 · 2021年8月11日

【ICCV2021】基于耦合语义注意力的弱监督目标定位

专知会员服务

15+阅读 · 2021年8月2日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICLR2025】视觉与语言导航的通用场景适应

《多模态适应与泛化》进展综述：从传统方法到基础模型

【剑桥博士论文】单目 3D 人体重建的概率方法

【NTU博士论文】深度学习中的后门：新的威胁与机会

相关资讯

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

37+阅读 · 2023年4月13日

【ICLR2022】图神经网络复杂时间序列建模以及医疗健康应用

【ICLR2022】图神经网络复杂时间序列建模以及医疗健康应用

专知

10+阅读 · 2022年4月15日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

26+阅读 · 2021年1月25日

【KDD2020】动态知识图谱的多事件预测

【KDD2020】动态知识图谱的多事件预测

专知

88+阅读 · 2020年8月31日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

19+阅读 · 2020年5月26日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

13+阅读 · 2017年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

信息系统直接使用与间接使用—探索基于社会权力视角的前因及其对工作绩效的影响

国家自然科学基金

1+阅读 · 2015年12月31日

机会物联网基于命名数据网络的信息检索机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

164+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

97+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

190+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

425+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

22+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

68+阅读 · 2022年9月7日

Deep Reinforcement Learning for Multi-Agent Interaction

Arxiv

42+阅读 · 2022年8月2日

Dynamic neighbourhood optimisation for task allocation using multi-agent

Arxiv

99+阅读 · 2022年5月11日

Heterogeneous Deep Graph Infomax

Heterogeneous Deep Graph Infomax

Arxiv

12+阅读 · 2019年11月19日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

微信扫码咨询专知VIP会员