近年来,3D高斯溅射(3D-GS)在从RGB图像中进行高质量的3D场景重建方面取得了显著进展。许多研究扩展了这一范式,应用于语言驱动的开放词汇场景理解。然而,大多数研究仅仅将2D语义特征投影到3D高斯分布上,忽视了2D与3D理解之间的根本差距:3D物体在不同视角下可能呈现出不同的语义特征——这一现象我们称之为视角依赖语义。为了应对这一挑战,我们提出了LaGa(语言高斯),它通过将3D场景分解为物体,建立跨视角的语义关联。接着,它通过对语义描述符进行聚类,并根据多视角语义重新加权,构建视角聚合的语义表示。大量实验表明,LaGa能够有效捕捉视角依赖语义中的关键信息,从而实现对3D场景的更全面理解。值得注意的是,在相同设置下,LaGa在LERF-OVS数据集上相较于之前的SOTA,mIoU显著提升了+18.7%。我们的代码已开放,地址为:https://github.com/https://github.com/SJTU-DeepVisionLab/LaGa。

成为VIP会员查看完整内容
8

相关内容

【KDD2023】发现动态因果空间进行DAG结构学习
专知会员服务
33+阅读 · 2023年6月9日
【WWW2021】知识图谱逻辑查询的自监督双曲面表示
专知会员服务
30+阅读 · 2021年4月9日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
VIP会员
相关资讯
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员