从语义描述中识别视觉类别是一种很有前途的方法,它可以扩展视觉分类器的能力,使其超越训练数据中所表示的概念(即看到的类别)。这个问题是由(广义的)零样本学习方法(GZSL)解决的,它利用语义描述将它们连接到所看到的类别(例如,标签嵌入,属性)。传统的GZSL主要是为了目标识别而设计的。在本文中,我们关注于零样本场景识别,这是一个更具挑战性的设置,有数百个类别,它们的差异可能是微妙的,通常在特定的物体或区域。传统的GZSL表示不够丰富,无法捕获这些局部差别。针对这些限制,我们提出了一个具有两个新组件的特征生成框架:1)多源语义信息(即属性、单词嵌入和描述),2)可以增强场景识别的区域描述。为了生成综合的视觉特征,我们提出了两步生成方法,其中局部描述采样和使用作为条件来生成视觉特征。生成的特征被聚合并与真实的特征一起用来训练一个联合分类器。为了对该方法进行评价,我们引入了一种新的具有多语义标注的零样本场景识别数据集。在该数据集和SUN属性数据集上的实验结果表明了该方法的有效性。
https://vipl.ict.ac.cn/homepage/jsq/publication/2020-Song-ACMMM.html