户外视觉语言导航(VLN)要求一个智能体基于自然语言指令,在真实的3D户外环境中进行导航。现有的VLN方法性能受限于导航环境的多样性不足和训练数据有限。为了解决这些问题,我们提出了VLN-VIDEO,它利用了美国多个城市驾驶视频中存在的多样化户外环境,并增强了自动生成的导航指令和行动,以提高户外VLN的性能。VLN-VIDEO结合了直观的经典方法和现代深度学习技术的最佳特性,使用模板填充来生成基于地面的导航指令,结合基于图像旋转相似性的导航行为预测器,从驾驶视频中获得VLN风格的数据,用于深度学习VLN模型的预训练。我们在Touchdown数据集及我们从驾驶视频中创建的视频增强数据集上预训练模型,通过三个代理任务进行预训练:掩码语言建模、指令与轨迹匹配以及下一步行动预测,以此学习时序感知和视觉对齐的指令表示。在微调Touchdown数据集时,将学到的指令表示适应到最先进的导航器中。实证结果表明,VLN-VIDEO在任务完成率上显著超过了之前的最先进模型2.1%,在Touchdown数据集上达到了新的最高水平。 https://www.zhuanzhi.ai/paper/65d220be694f2bda68254ad8fe413cd5

成为VIP会员查看完整内容
9

相关内容

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯
【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理
专知会员服务
43+阅读 · 2024年1月24日
【NeurIPS2023】多样化的时空感知用于视频域泛化
专知会员服务
21+阅读 · 2023年10月30日
专知会员服务
11+阅读 · 2021年2月4日
【AACL2020】自监督学习的自然语言处理
专知会员服务
52+阅读 · 2020年12月12日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
163+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
424+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
Arxiv
153+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员