【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习 - 专知VIP

会员服务 ·

1

ICCV 2025 · 零样本学习 · 视觉语言模型 · 可解释性 ·

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

大规模视觉-语言模型（VLMs），如 CLIP，通过利用大规模图文对数据集，在零样本学习（ZSL）任务中取得了显著成功。然而，这类方法通常缺乏可解释性，因为它们是通过计算整张查询图像与类别词嵌入之间的相似度来进行预测，难以解释其决策过程。为了解决这一问题，一种思路是通过引入语言构建可解释模型，即使用离散属性构建分类器，模仿人类感知方式。这带来了一个新的挑战：如何在预训练的视觉-语言模型基础上，有效对齐局部视觉特征与对应的属性。为此，我们提出了一种用于可解释零样本学习的局部对齐视觉-语言模型——LaZSL。LaZSL 通过最优传输实现局部视觉-语义对齐，使视觉区域与其相关属性之间能够有效交互，从而实现有效对齐，并在无需额外训练的前提下提供可解释的相似性度量。大量实验证明，我们的方法在可解释性、准确性和跨领域泛化能力方面均表现出明显优势。代码地址：https://github.com/shiming-chen/LaZSL

成为VIP会员查看完整内容

2

相关内容

ICCV 2025

【CVPR2025】面向自监督场景文本识别的语言学感知掩码图像建模

【CVPR2025】面向自监督场景文本识别的语言学感知掩码图像建模

专知会员服务

9+阅读 · 3月25日

【WWW2025】基于不确定性的图结构学习

【WWW2025】基于不确定性的图结构学习

专知会员服务

16+阅读 · 2月20日

【NeurIPS2024】超越冗余：信息感知的无监督多重图结构学习

【NeurIPS2024】超越冗余：信息感知的无监督多重图结构学习

专知会员服务

26+阅读 · 2024年9月29日

【KDD2024】面向鲁棒推荐的决策边界感知图对比学习

【KDD2024】面向鲁棒推荐的决策边界感知图对比学习

专知会员服务

21+阅读 · 2024年8月8日

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

专知会员服务

19+阅读 · 2024年4月13日

【ICCV2023】保留模态结构改进多模态学习

【ICCV2023】保留模态结构改进多模态学习

专知会员服务

31+阅读 · 2023年8月28日

【NeurIPS2022】通过模型转换的可解释强化学习

【NeurIPS2022】通过模型转换的可解释强化学习

专知会员服务

37+阅读 · 2022年10月4日

【AAAI2022】混合图神经网络的少样本学习

【AAAI2022】混合图神经网络的少样本学习

专知会员服务

46+阅读 · 2021年12月14日

【ICML2021】具有超参数重要性的可解释的自动图表示学习

专知会员服务

25+阅读 · 2021年7月18日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

40+阅读 · 2023年4月13日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

18+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

20+阅读 · 2018年9月26日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

5+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

101+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

213+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

469+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

68+阅读 · 2022年9月7日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Arxiv

17+阅读 · 2019年11月6日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

零样本学习

视觉语言模型

相关VIP内容

【CVPR2025】面向自监督场景文本识别的语言学感知掩码图像建模

【CVPR2025】面向自监督场景文本识别的语言学感知掩码图像建模

专知会员服务

9+阅读 · 3月25日

【WWW2025】基于不确定性的图结构学习

【WWW2025】基于不确定性的图结构学习

专知会员服务

16+阅读 · 2月20日

【NeurIPS2024】超越冗余：信息感知的无监督多重图结构学习

【NeurIPS2024】超越冗余：信息感知的无监督多重图结构学习

专知会员服务

26+阅读 · 2024年9月29日

【KDD2024】面向鲁棒推荐的决策边界感知图对比学习

【KDD2024】面向鲁棒推荐的决策边界感知图对比学习

专知会员服务

21+阅读 · 2024年8月8日

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

专知会员服务

19+阅读 · 2024年4月13日

【ICCV2023】保留模态结构改进多模态学习

【ICCV2023】保留模态结构改进多模态学习

专知会员服务

31+阅读 · 2023年8月28日

【NeurIPS2022】通过模型转换的可解释强化学习

【NeurIPS2022】通过模型转换的可解释强化学习

专知会员服务

37+阅读 · 2022年10月4日

【AAAI2022】混合图神经网络的少样本学习

【AAAI2022】混合图神经网络的少样本学习

专知会员服务

46+阅读 · 2021年12月14日

【ICML2021】具有超参数重要性的可解释的自动图表示学习

专知会员服务

25+阅读 · 2021年7月18日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

中国AI行业系列观察报告：穿越资讯迷雾，重塑AI认知

走向通用人工智能之路，世界模型为何不可或缺？

最新中文版7000字 | 无人机与作战革命：美国陆军致力于无人化时代

相关资讯

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

40+阅读 · 2023年4月13日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

18+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

20+阅读 · 2018年9月26日

相关基金

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

5+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

101+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

213+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

469+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

68+阅读 · 2022年9月7日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Arxiv

17+阅读 · 2019年11月6日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员