零样本学习(ZSL)通过进行视觉-语义交互来识别未见类别,将语义知识从已见类别传递到未见类别,这一过程得到了语义信息(例如,属性)的支持。然而,现有的ZSL方法仅使用预训练的网络主干(即CNN或ViT)提取视觉特征,由于缺乏语义信息的指导,这些方法未能学习匹配的视觉-语义对应关系来表示与语义相关的视觉特征,导致视觉-语义交互不理想。为解决这一问题,我们提出了一个渐进式语义引导视觉变换器用于零样本学习(简称ZSLViT)。ZSLViT主要考虑了整个网络中的两个属性:一是显式地发现与语义相关的视觉表征,二是丢弃与语义无关的视觉信息。具体来说,我们首先引入了语义嵌入的token学习,通过语义增强和语义引导的token注意力来改善视觉-语义对应关系,并显式地发现与语义相关的视觉token。然后,我们融合低视觉-语义对应关系的视觉token以丢弃与语义无关的视觉信息,用于视觉增强。这两种操作被整合到各种编码器中,以便在ZSL中逐步学习与语义相关的视觉表征,以实现精确的视觉-语义交互。广泛的实验表明,我们的ZSLViT在三个流行的基准数据集上,即CUB、SUN和AWA2,取得了显著的性能提升。

成为VIP会员查看完整内容
19

相关内容

【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
20+阅读 · 2023年1月18日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
VIP会员
相关VIP内容
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
20+阅读 · 2023年1月18日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员