IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)是计算机视觉领域的顶级国际会议,CCF A类会议。CVPR2025将于2025年6月11日至15日在美国田纳西州纳什维尔举办。CVPR 2025 共有13,008 份投稿,录用2878篇,录取率为 22.1%。 CVPR2025接受论文列表出炉!2878篇都在这了!1. 《MMRL:多模态表示学习在视觉-语言模型中的应用》
大规模预训练的视觉-语言模型(Vision-Language Models, VLMs)已成为跨多种任务迁移学习的关键工具。然而,在有限的小样本数据下对这些模型进行微调往往会导致过拟合,从而降低其在新任务上的表现。为了解决这一问题,我们提出了一种新颖的多模态表示学习框架(Multi-Modal Representation Learning, MMRL),该框架引入了一个共享的、可学习的且与模态无关的表示空间。MMRL 将空间令牌映射到文本和图像表示令牌,从而促进更有效的多模态交互。与以往仅优化类别令牌特征的方法不同,MMRL 在编码器的较高层(这些层中数据集特定特征更为显著)集成了表示令牌,同时在较低层保留泛化知识。在训练过程中,表示特征和类别特征均被优化,其中表示令牌通过可训练的投影层进行调整,而类别令牌的投影层则保持冻结以保留预训练知识。此外,引入了一个正则化项,将类别特征和文本特征与冻结 VLM 的零样本特征对齐,从而保护模型的泛化能力。在推理阶段,采用解耦策略:对于基础类别,同时使用表示特征和类别特征;而对于新任务,仅使用保留更多泛化知识的类别特征。在 15 个数据集上的广泛实验表明,MMRL 在任务特定适应性和泛化能力之间实现了平衡,性能优于现有最先进方法。代码已开源:https://github.com/yunncheng/MMRL。https://arxiv.org/pdf/2503.08497
预训练的视觉-语言模型(Vision-Language Models, VLMs)需要通过持续学习(Continual Learning, CL)来高效更新其知识,并适应各种下游任务,而无需从头开始重新训练。然而,对于 VLMs 来说,除了会遗忘从下游任务中学到的知识外,预训练知识在持续微调过程中也会受到破坏。这一问题因原始预训练数据的不可用而进一步加剧,导致 VLM 的泛化能力下降。在本文中,我们提出了 GIFT,一种新颖的持续微调方法,利用合成数据来克服 VLMs 中的灾难性遗忘问题。借助文本到图像合成技术的最新进展,我们使用预训练的扩散模型重新生成预训练数据和已学习的下游任务数据。通过这种方式,VLM 可以通过对匹配的扩散生成图像和相应文本提示进行蒸馏,重新回顾之前的知识。利用合成图像-文本对在 VLM 特征空间中的广泛分布和高对齐性,我们提出了一种对比蒸馏损失以及图像-文本对齐约束。为了进一步应对分布内过拟合并增强有限生成数据下的蒸馏性能,我们引入了自适应权重整合,利用这些合成图像-文本对的 Fisher 信息,实现更好的稳定性与可塑性平衡。大量实验表明,我们的方法在各种设置下始终优于之前的最先进方法。https://arxiv.org/pdf/2503.04229
幻觉问题仍然是大型视觉-语言模型(Large Vision-Language Models, LVLMs)面临的主要挑战。直接偏好优化(Direct Preference Optimization, DPO)作为一种解决幻觉问题的简单方法,近年来受到越来越多的关注。它通过从反映同一提示和图像下响应中幻觉严重程度的偏好对中直接学习,从而缓解幻觉问题。 然而,现有研究中不同的数据构建方法带来了显著的性能差异。我们发现了一个关键因素:结果在很大程度上取决于构建的数据是否与 DPO 的初始(参考)策略在策略内对齐。理论分析表明,从策略外数据中学习会受到更新策略与参考策略之间 KL 散度的阻碍。从数据集分布的角度,我们系统地总结了现有采用 DPO 解决幻觉问题的算法的固有缺陷。为了缓解这些问题,我们提出了策略内对齐(On-Policy Alignment, OPA)-DPO 框架,该框架独特地利用专家反馈来纠正幻觉响应,并以策略内方式对齐原始响应和专家修订的响应。值得注意的是,仅使用 4.8k 数据,OPA-DPO 在 LLaVA-1.5-7B 模型上实现了进一步的幻觉率降低:在 AMBER 基准上降低了 13.26%,在 Object-Hal 基准上降低了 5.39%,优于之前使用 16k 样本训练的最先进算法。我们的实现代码已开源:https://github.com/zhyang2226/OPA-DPO。 4. 《LAYOUTVLM:通过视觉-语言模型实现3D布局的可微优化》
空间推理是人类认知的基本组成部分,使我们能够直观地理解和操作三维空间中的物体。尽管基础模型在某些基准测试中表现出色,但在根据开放式语言指令在空间中排列物体等 3D 推理任务上,尤其是在密集且物理受限的环境中,它们仍然面临挑战。我们提出了 LAYOUTVLM,这是一个利用视觉-语言模型(Vision-Language Models, VLMs)语义知识的框架和场景布局表示,并支持可微优化以确保物理合理性。LAYOUTVLM 使用 VLMs 从视觉标记的图像中生成两种相互增强的表示,并通过自洽的解码过程来改进 VLMs 的空间规划能力。实验表明,LAYOUTVLM 解决了现有基于 LLM 和约束方法的局限性,生成的 3D 布局在物理上更合理,并且更符合输入语言指令的语义意图。我们还证明,使用从现有场景数据集中提取的场景布局表示对 VLMs 进行微调,可以提高其推理性能。
近年来,视觉-语言模型(Vision-Language Models, VLMs),如 CLIP,在视觉任务的自监督表示学习中取得了显著成功。然而,将 VLMs 有效适应下游应用仍然具有挑战性,因为其准确性通常依赖于耗时且需要专业知识的提示工程,而全模型微调则成本高昂。这一问题在生物医学图像中尤为突出,与自然图像不同,生物医学图像通常面临标注数据集有限、图像对比不直观以及视觉特征微妙等挑战。最近的提示学习技术,如上下文优化(Context Optimization, CoOp),旨在解决这些问题,但在泛化能力方面仍显不足。同时,针对生物医学图像分析的提示学习探索仍然非常有限。在本研究中,我们提出了 BiomedCoOp,一种新颖的提示学习框架,能够高效地适应 BiomedCLIP,以实现准确且高度泛化的少样本生物医学图像分类。我们的方法通过利用与大型语言模型(LLMs)的平均提示集合的语义一致性,以及基于统计的提示选择策略进行知识蒸馏,实现了有效的提示上下文学习。我们在 9 种模态和 10 个器官的 11 个医学数据集上对现有最先进方法进行了全面验证,结果表明我们的框架在准确性和泛化能力方面均取得了显著提升。代码已公开:https://github.com/HealthX-Lab/BiomedCoOp。