视觉-语言导航(VLN)要求代理基于视觉观察和自然语言指令在3D环境中导航。显然,成功导航的关键因素在于全面的场景理解。之前的VLN代理采用单目框架直接提取透视视图的2D特征。尽管这种方法直接,但它们在捕获3D几何和语义方面存在困难,导致了部分和不完整的环境表示。为了实现具有细粒度细节的全面3D表示,我们引入了体积环境表示(VER),该表示将物理世界体素化为结构化的3D单元。对于每个单元,VER通过2D-3D采样将多视图2D特征聚合到这样一个统一的3D空间中。通过从粗到细的特征提取和对VER的多任务学习,我们的代理联合预测3D占用、3D房间布局和3D边界框。基于在线收集的VER,我们的代理执行体积状态估计并建立情节记忆以预测下一步。实验结果显示,我们从多任务学习中得到的环境表示在VLN上带来了明显的性能提升。我们的模型在VLN基准测试(R2R、REVERIE和R4R)上达到了最先进的性能。

成为VIP会员查看完整内容
17

相关内容

【AAAI2024】LAMM: 多模态提示学习的标签对齐
专知会员服务
39+阅读 · 2023年12月14日
【NeurIPS2023】用几何协调对抗表示学习视差
专知会员服务
26+阅读 · 2023年10月28日
【CIKM2022】基于双向Transformers对比学习的序列推荐
专知会员服务
20+阅读 · 2022年8月10日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
20+阅读 · 2022年4月20日
专知会员服务
14+阅读 · 2021年9月11日
专知会员服务
25+阅读 · 2021年9月9日
专知会员服务
37+阅读 · 2021年6月3日
专知会员服务
62+阅读 · 2021年3月12日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月1日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
VIP会员
相关VIP内容
【AAAI2024】LAMM: 多模态提示学习的标签对齐
专知会员服务
39+阅读 · 2023年12月14日
【NeurIPS2023】用几何协调对抗表示学习视差
专知会员服务
26+阅读 · 2023年10月28日
【CIKM2022】基于双向Transformers对比学习的序列推荐
专知会员服务
20+阅读 · 2022年8月10日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
20+阅读 · 2022年4月20日
专知会员服务
14+阅读 · 2021年9月11日
专知会员服务
25+阅读 · 2021年9月9日
专知会员服务
37+阅读 · 2021年6月3日
专知会员服务
62+阅读 · 2021年3月12日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员