视觉基础模型(Vision Foundation Models, VFMs)和视觉语言模型(Vision-Language Models, VLMs)凭借其强大的泛化能力,近年来在领域泛化语义分割(Domain Generalized Semantic Segmentation, DGSS)任务中受到广泛关注。然而,现有的 DGSS 方法通常仅依赖 VFMs 或 VLMs 中的一种,忽视了它们之间的互补优势。以 DINOv2 为代表的 VFMs 擅长捕捉细粒度特征,而如 CLIP 等 VLMs 则在文本对齐方面表现优异,但往往难以处理粗粒度语义。

尽管 VFMs 和 VLMs 具备互补能力,但将两者有效融合仍具有挑战性,特别是在注意力机制中,因 patch tokens 数量增多而导致长序列建模难度增加。为此,我们提出了 MFuser,一种基于 Mamba 的新型融合框架,可高效整合 VFMs 与 VLMs 的优势,同时在序列长度上保持线性可扩展性。 MFuser 主要包括两个关键组件: * MVFuser:作为协同适配器(co-adapter),用于联合微调两种模型,同时捕捉序列与空间动态信息; * MTEnhancer:一种融合注意力机制与 Mamba 的混合模块,通过引入图像先验对文本嵌入进行增强。

我们的方法在实现精确特征定位的同时,也保持了强文本对齐能力,且不会引入显著的计算开销。大量实验表明,MFuser 在多个基准测试上显著优于现有的 DGSS 方法:在合成到真实(synthetic-to-real)场景中达到 68.20 mIoU,在真实到真实(real-to-real)场景中达到 71.87 mIoU。 项目代码已开源,地址为:

👉 https://github.com/devinxzhang/MFuser

成为VIP会员查看完整内容
2

相关内容

【AAAI2023】面向领域自适应语义分割的几何感知网络
专知会员服务
21+阅读 · 2022年12月7日
专知会员服务
51+阅读 · 2021年8月13日
专知会员服务
15+阅读 · 2021年8月2日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
26+阅读 · 2021年1月29日
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
149+阅读 · 2020年7月6日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
451+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
dynnode2vec: Scalable Dynamic Network Embedding
Arxiv
14+阅读 · 2018年12月6日
VIP会员
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员