学习4D语言场以实现动态场景中时间敏感且开放式的语言查询,对于许多实际应用至关重要。尽管LangSplat成功地将CLIP特征嵌入到3D高斯表示中,在3D静态场景中实现了精度和效率,但它无法处理动态4D场,因为CLIP是为静态图像-文本任务设计的,无法捕捉视频中的时间动态。现实世界环境本质上是动态的,对象语义会随时间演变。构建精确的4D语言场需要获取像素对齐的、对象级别的视频特征,而当前的视觉模型难以实现这一点。为了解决这些挑战,我们提出了4D LangSplat,它通过学习4D语言场来高效处理动态场景中时间无关或时间敏感的开放词汇查询。4D LangSplat绕过了从视觉特征中学习语言场的过程,而是直接通过多模态大语言模型(MLLMs)从对象级别的视频描述生成的文本中学习。具体而言,我们提出了一种多模态对象级别视频提示方法,包括视觉和文本提示,指导MLLMs为视频中的对象生成详细、时间一致且高质量的描述。这些描述通过大语言模型编码为高质量的句子嵌入,随后作为像素对齐的、对象特定的特征监督,通过共享嵌入空间促进开放词汇文本查询。认识到4D场景中的对象在不同状态之间表现出平滑过渡,我们进一步提出了一种状态可变形网络,以有效建模这些随时间变化的连续状态。我们在多个基准测试中的结果表明,4D LangSplat在时间敏感和时间无关的开放词汇查询中均实现了精确且高效的结果。

成为VIP会员查看完整内容
3

相关内容

【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【KDD2024】CAFO:基于特征的时间序列分类解释
专知会员服务
25+阅读 · 2024年6月5日
【CVPR2024】用于视觉-语言导航的体积环境表示
专知会员服务
18+阅读 · 2024年3月24日
【CVPR2023】NS3D:3D对象和关系的神经符号Grounding
专知会员服务
22+阅读 · 2023年3月26日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
21+阅读 · 2022年4月20日
专知会员服务
50+阅读 · 2021年6月2日
【ICML2021】具有线性复杂度的Transformer的相对位置编码
专知会员服务
25+阅读 · 2021年5月20日
专知会员服务
30+阅读 · 2020年9月18日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
16+阅读 · 2023年6月6日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
441+阅读 · 2023年3月31日
Arxiv
57+阅读 · 2021年5月3日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
VIP会员
相关VIP内容
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【KDD2024】CAFO:基于特征的时间序列分类解释
专知会员服务
25+阅读 · 2024年6月5日
【CVPR2024】用于视觉-语言导航的体积环境表示
专知会员服务
18+阅读 · 2024年3月24日
【CVPR2023】NS3D:3D对象和关系的神经符号Grounding
专知会员服务
22+阅读 · 2023年3月26日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
21+阅读 · 2022年4月20日
专知会员服务
50+阅读 · 2021年6月2日
【ICML2021】具有线性复杂度的Transformer的相对位置编码
专知会员服务
25+阅读 · 2021年5月20日
专知会员服务
30+阅读 · 2020年9月18日
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
相关论文
Arxiv
16+阅读 · 2023年6月6日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
441+阅读 · 2023年3月31日
Arxiv
57+阅读 · 2021年5月3日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
微信扫码咨询专知VIP会员