如何高效识别新概念？香港理工等最新元素级零样本识别技术系统性综述

近日，香港理工大学相关团队联合昆士兰大学、香港科技大学、阿里巴巴以及南洋理工大学等学者共同撰写了基于元素级表征和推理的零次学习技术综述，旨在为相关领域学者以及科技从业者提供最新且全面的技术梳理和学习资源。零样本图像识别（Zero-Shot Image Recognition，ZSIR）旨在通过从所见领域的有限数据中学习广义知识，增强模型在陌生环境中进行识别和推理的能力**。其核心思想是学习视觉特征到语义空间的元素级表示和推理方法，这是一种自下而上的建模范式，其灵感来自人类观察世界的过程，即通过学习和组合基本组件或共享特征来捕获新概念**。近年来，元素级学习技术在零样本图像识别领域取得了重大进展，并得到了广泛应用。然而，据我们所知，目前仍缺乏对这一主题的系统概述。为了丰富相关文献，并为其未来发展奠定坚实的基础，我们在本文中对相关的最新进展进行了广泛调查。具体而言，我们将对象识别、组合识别和基于基础模型的开放世界识别这三个基本的零样本图像识别任务整合到一个统一的元素级视图中，并对主要研究方法进行了详细的分类和分析。然后，我们收集并总结了一些关键信息，如技术实现细节和通用数据集。最后，我们概述了其广泛的相关应用，讨论了重要的挑战，并提出了潜在的未来发展方向。

**零样本图像识别中的主要研究方向有哪些?主要的零样本图像识别任务包括零样本对象识别，零样本组合识别和基于基础模型的开放世界识别。零样本对象识别是通过学习类别之间共享的属性知识来识别未曾见过的类别。比如，如果模型见过老虎、熊猫和马，并且知道斑马是有黑白条纹的长的像马的动物，那么它可以在见到斑马的图像时进行正确的分类。零样本组合识别是在识别对象类别的同时，描述对象的状态。比如通过认识切片的苹果和去皮的香蕉，来识别切片的香蕉和去皮的苹果。这要求模型建立对对象和状态的双重感知和理解能力。基于基础模型的开放世界识别是探索大型视觉-语言模型在开放世界中的零样本泛化能力。大型视觉-语言模型是在海量视觉-语言样本对的支持下进行预训练的模型。由于接受到庞大的语义信息，大模型具备感知和识别基础元素的能力，被应用到各种下游任务中。然而，大模型的泛化能力并不是完美的。由于上下游数据集的分布差异，其性能仍然有巨大的提升空间。因此，近期对于大模型的开放世界识别能力的研究引起了很多关注。共性和差异。**零样本对象识别和组合识别都在相对封闭的环境中运行，也就是说，需要预测的类别是已知的。尽管有些研究提出了开放世界的组合识别，但其实质只是将标签集从子集扩展到全集。而开放世界识别则与任务无关，需要提前学习更广泛的知识，以应对未知的挑战。一般来说，对象识别的元素注释通常更丰富、更详细，而组合识别任务只包含单个状态和对象（类别）注释。另一方面，对象识别任务的元素注释是类级别的，因此可能会在单个实例上发生偏移，而组合识别任务的注释是实例级别的。此外，对象识别的目标是识别由不同属性组成的对象，而组合识别任务的目标是识别由不同状态和对象组成的组合。

对于三个任务而言，元素级表征和推理是共同的动机，即学习与文本注释相对应的视觉元概念，然后进行组合推理以识别新的上层概念。此外，许多技术在多个任务中都是通用的，如注意力机制、图建模等。主要的挑战是什么? 细粒度视觉分析是关键挑战之一，其涉及视觉定位、视觉表征和视觉-文本关联建模。面临的问题包括 1）元素的复杂性。与分类注释相比，元素注释的数量往往更大，相应的视觉特征也更加细微。例如，在对象识别中，属性的数量可达数百个，它们描述了不同维度和尺度的语义信息。此外，由于难以找到相应的显性视觉区域，抽象属性的处理也是一项挑战。2）视觉遮挡和重叠。视觉遮挡发生在物体与背景之间或元素与元素之间，可能导致关键视觉区域的缺失。视觉重叠指的是同一区域的多种语义表达方式。例如，在识别红色的汽车时，红色和汽车的视觉信息很难完全分离，因为它们可以由同一个视觉部分来表达。3）视觉交互。视觉区域的独立语义是模糊甚至歧义的。例如，如果从牛的躯干上取下一小部分，就很难识别它来自哪个部位或哪个物种。因此，区域的语义在不同程度上取决于整体。同时，区域之间存在着结构和物理逻辑关系，这使得独立的视觉表征并不理想。域偏移是另一个长期存在的问题，指的是视觉特征在映射到深层语义空间时的分布差异。零样本图像识别的传统范式是将看到的视觉特征映射到语义嵌入中，并将其与相应的文本注释关联起来。当部署到开放环境中时，如果未知的视觉样本被映射到类似的语义嵌入附近，相应的文本就能被索引，从而推断出正确的标签。然而，现代模型偏向于已见类，因此学习的映射函数存在偏差，使得未见样本和已见样本之间的语义距离过大。它误导模型将未见样本的嵌入识别为离群值或噪声，从而产生错误判断，这对于将模型推广到开放世界是一个巨大的障碍。

元素级零样本学习方法 我们在第3、4、5节中对三个主要的零样本图像识别任务作了详细的分类。对于对象识别，对象的视觉组件及其属性描述是桥接可见类和未见类的关键元素。我们按照所针对的元素分为了三个板块，包括视觉组件分析、属性组件分析和视觉-属性匹配。对于组合识别，对象和状态是基础元素，我们根据操作对象和状态的方式将其分为了三个部分，包括解耦表征、关系建模和依赖性建模。对于基于基础模型的开放世界识别，这是一个较新的话题，我们根据大模型的部署场景进行了分类。除此之外，我们提供了相关的技术细节，包括三个领域常用的评估数据集，各种方法的应用细节、代码仓库等。

元素级零样本技术的广泛应用 零样本学习大幅减轻了图像数据收集的压力，具有重要的现实意义。同时，元素级思想提供了一种直观的类人学习模式，适用于各种推理任务。近年来，除图像识别外，元素级零样本技术还被广泛应用于多个领域，他们相互促进，协同发展。我们从语言和文本、场景理解、3D视觉和其他实用类任务四个方面阐述了应用。展望我们讨论了目前三大零样本图像识别领域的缺陷，并展望了未来的潜在研究问题。从数据处理、任务设置和理论分析等方面我们提出了一些亟待探索的课题，比如持续零样本学习、多标签组合学习、统一框架等。结论我们全面阐述了零样本图像识别领域的三个主要任务，这些任务共享元素级表征和推理的概念。具体来说，我们展示了几个任务的背景、共性和面临的挑战。然后，对最新的相关技术进行了细致的分类和解释。同时，我们还提供了具体的技术细节，包括数据集、训练细节、代码库地址等。最后，我们展示了元素级零样本学习的广泛应用，并展望了未来的发展方向。