【ETHZ博士论文】面向开放集计算机视觉的语言引导，157页pdf

视觉世界广阔且不断发展。

此外，由于数据采集的长尾特性，计算机视觉系统无法在训练时观察到所有视觉概念。人类在小时候也并非学习整个世界。我们人类在一生中不断地适应并学习视觉概念。我们发展出了一个世界的组合性表征，其中复杂的实体被进一步分解为在不同视觉概念之间共享的更简单的原语。人类可以通过语言分享他们的组合视觉模型，这使得零-shot生成新类别成为可能。例如，如果某人没有观察过动物斑马，可以通过‘斑马是一种像马的动物，身上有黑白条纹’的描述来理解它。人类可以利用这一描述在没有显式视觉监督的情况下，对斑马进行零-shot泛化。在本篇博士论文中，我们利用人类语言的这一组合特性，开发了能够通过语言进行新类别泛化的计算机视觉系统，而无需通过带标签数据的重新训练。我们特别聚焦于零-shot学习（ZSL）和开放集计算机视觉领域。

论文的第一部分

我们提出在线文本文档（如维基百科）包含有关物体类别的丰富视觉描述。我们认为，这些文本可以作为强大的无监督辅助信息用于零-shot学习。为此，我们提出了I2DFormer，一个基于变换器的创新ZSL框架，它通过在共享嵌入空间中对齐图像和文档，联合学习编码图像和文档。在定量方面，我们展示了I2DFormer在三个公共数据集上，在零-shot和广义零-shot学习设置下，显著超越了先前的无监督语义嵌入方法。在定性方面，我们展示了我们的方法可以带来高度可解释的结果，其中文档中的词汇可以与图像区域相对应。

论文的第二部分

我们通过提出一个创新的文档摘要变换器（DSTransformer），解决了I2DFormer的内存复杂度问题。我们的DSTransformer能够将文档编码为固定的一组摘要标记，从而使我们能够将模型扩展到更具挑战性的ImageNet规模的零-shot学习。我们展示了I2DFormer+在大规模零-shot学习基准测试上显著超越了基准模型。

论文的第三部分

在Web规模文本上训练的大型语言模型（LLM）展示了令人印象深刻的能力，能够将其学习的知识应用于多种任务。我们提出了一种新视角，利用大型语言模型（LLM）来描述类别，随着零-shot泛化的出现进行分类。我们提出了I2MVFormer，一个能够利用来自LLM的多重描述来理解每个类别的创新模型。I2MVFormer进一步提高了使用无监督语义嵌入的零-shot图像分类的最新技术水平。论文的最后部分

我们构建了一个面向所有基于图像的任务的开放集计算机视觉模型。基于Web规模图像注释数据集的图像-文本预训练，已成为开放集分类和检索模型的默认方法，这要归功于CLIP及其变体的成功。我们引入了SILC，一个创新的视觉语言预训练框架。SILC通过自蒸馏的本地到全局对应学习，简单地增强了图像-文本对比学习。SILC模型为零-shot分类、少-shot分类、图像和文本检索、零-shot分割以及开放词汇分割设定了新的技术标准。我们进一步展示了SILC在开放词汇检测、图像字幕生成和视觉问答方面的巨大优势。总体而言，本论文提出了语言引导作为一个强有力的信号，用于跨所有基于图像的任务的开放集计算机视觉。“老虎长什么样？”它是一种凶猛的动物，看起来像一只可怕的大猫，身上有条纹。

老虎不是日本的本土动物，但当来自中国的旅行者根据本地动物描述它们时，这激发了日本历史上一系列描绘老虎的画作。人类拥有一种令人印象深刻的能力，通过纯粹的语言描述来想象和识别未曾见过的物体。我们可以轻松地在复杂环境中导航，并在零-shot任务中泛化到新的视觉挑战，如新类别。人类的感知是组合性的[13, 56]。我们通过基本概念来发展对周围世界的理解，这些概念可以用于复杂推理。开发能够模仿并最终超越人类能力的机器学习系统，一直是学术界的长期目标。

早期的计算机视觉系统使用了手工设计的特征提取器[86, 7]与可学习的分类器的结合。若干工作在此基础上进行了改进，通过无监督的方式直接从数据中学习特征提取[69, 105]，然后进行第二阶段的分类边界学习。2012年，现代深度学习领域迎来了第一次实用突破——AlexNet[70]，为今天的系统铺平了道路。AlexNet展示了通过大量数据集和计算，能够完全端到端地学习特征提取器和分类器。AlexNet联合训练了卷积神经网络（CNN）特征提取器和多层感知器（MLP）分类器。在AlexNet成功的基础上，学术界在随后的几年里开发了更强大的模型。朝着这个方向发展的几个关键进展包括使用更深的网络来构建更大模型[136, 128, 55, 189]，开发更好的优化器和规范化技术以促进稳定学习[68, 134, 59, 6]，以及最重要的跳跃连接的发明[55]。神经网络存在梯度消失的问题，即随着模型深度的增加，学习信号会由于与小激活值的乘积而逐渐消失。ResNet[55]通过引入跳跃连接来解决这个问题，使模型可以绕过某一模块，提供学习的备用路径，以应对该模块出现梯度消失问题。最近，卷积神经网络（CNN）模型受到了Transformer模型的颠覆[141]。Transformer通过利用注意力机制，直接从数据中学习所有归纳偏置和特征。Transformer最初提出于自然语言处理（NLP）领域，但自从引入视觉Transformer[38]以来，它对计算机视觉产生了巨大的影响。由于这些重大进展，计算机视觉系统现在能够在多个任务上超越人类水平的表现，包括分类、检测、分割等[35, 9, 25, 120]。然而，这些当前的系统仍然遵循封闭集方法，它们在训练时只会在预定义的类别集合上进行训练，在测试时只能处理同一类别的新实例。我们认为，这些封闭集系统对于实际应用场景的限制很大。

现实世界是广阔且不断发展的。在实际环境中的计算机视觉系统，必定会面对训练数据中没有覆盖的新视觉概念。这些封闭集系统无法在没有重新训练的情况下，泛化到新的概念[150]。实现开放集能力，即能在新视觉概念出现时进行泛化，对现实世界的计算机视觉系统至关重要。例如，自动驾驶机器人可能会遇到环境中的未知物体，或者医学影像系统可能会在新的发现下识别以前未知的疾病。零-shot学习（ZSL）旨在通过共享的辅助信息，将一个在已见类别上训练的模型推广到一组未见的类别[150]。

这些共享信息通常通过人类标注的类属性来实现[151, 112, 142, 44, 101]。与只将图像标注为其名词实体（例如：狗）不同，基于属性的方法还会识别和标注类之间的公共基本语义特征（例如：腿、毛发、栖息地等）。一旦人类标注了这些附加的类属性，ZSL方法就能在与这些属性向量的关系中学习分类。在测试时，这些模型可以通过预测共享的属性来泛化到未见的类别，并选择与预测最兼容的类别。尽管这些方法非常强大，但它们用一种代价更高的标注方式（即细粒度的属性标注）交换了另一种标注方式（即新类别的图像标注）。此外，基于属性的方法依赖于手动识别类之间一组不重叠的属性，以实现类边界的学习。当我们扩展到ImageNet规模的零-shot学习时，这种方法的代价变得不可承受。另一类方法则依赖于从仅语言编码器中提取的语义嵌入来表示类别[123, 104, 23, 91, 1, 173, 150, 92]。

这些方法通过像GloVe[113]这样的模型将类别名称编码为类的替代标注向量。由于在语言编码器的语义空间中，相似类别之间的距离较近，这使得一定程度的零-shot泛化成为可能。然而，由于这些语言编码器并没有与视觉模态共同训练，它们通常会遇到由于类名称的模糊性导致的常见失败案例[102]。此外，这些方法本质上受到预训练编码器的语义嵌入质量的限制[102, 103, 100]。零-shot学习的另一个子领域专门关注研究机器学习模型的组合性。

这一文献中的早期尝试可以追溯到Hoffman[56]，他提出通过将物体分解为线条和边缘来建模物体。Biederman[13]在此基础上改进，提出通过将视觉概念分解为其部分来实现组合性，并通过这些原语实现组合性。从根本上讲，现代机器学习系统（如CNN和Transformer）已经具备一定程度的组合性。多项研究表明，这些模型在模型的早期层次中学习诸如边缘等原始特征，类似于Hoffman的构想[56]。随后的层次则使用这些基本特征构建物体的更大部分，类似于Biederman的构想[13]。然而，这些模型只共享低级特征和原语，无法实现对新语义物体类别的组合性。组合性零-shot学习（CZSL）要求模型通过学习特定状态和物体对的组合，泛化到这些原语的新组合。该方向的方法通过学习状态和物体之间的组合函数来泛化到新的组合。然而，尽管这些模型在训练期间观察了所有原语，许多研究表明它们仍然难以将这些原语组合成新的组合类[104, 91, 65, 64, 101]。这是因为当前形式下的状态-物体组合性问题存在困境[101, 104]。我们采取了一种不同的组合性方法。我们没有依赖于硬性的状态和物体类，而是利用自然语言描述，通过直接从语言中学习到的原语实现对新类别的组合性。本论文旨在迈向“开放集”计算机视觉，

在这种体系中，系统不仅可以识别先前见过的视觉概念，还能处理从未遇到过的新概念。我们没有采用使用人类标注属性或通过预训练编码器编码类别名称的方法，而是采取了一个正交的方向。自然语言描述提供了丰富的语义信息源，可以架起图像学习到的低级特征与高层语义理解之间的桥梁。我们提出，如果一个机器学习系统能够通过类别的语言描述来学习世界，它可以足够理解形成更复杂类别的简单组合性概念。因此，可以通过语言描述引入新类别，并且模型可以有效地进行零-shot泛化。例如，我们可以通过将“斑马是一种像马的动物，身上有黑白条纹”描述引入动物分类器中，从而添加一个新的“斑马”类别。我们探索了三条将语言引入计算机视觉系统进行开放集识别的路径。

I2DFormer 和 I2DFormer+：

我们提出使用来自维基百科的非结构化人类文本，在第三和第四章中学习分类模型。由于我们的I2DFormer框架在语言描述的关联下学习分类，它允许模型通过各自的描述对新类别进行零-shot泛化。维基百科文本在互联网上易于获取，并且在新类别出现时查询成本较低。此外，I2DFormer天然具备可解释性，可以解释文档中哪些单词以及图像中哪些区域对决策起到了作用。我们进一步展示了I2DFormer框架可以扩展到ImageNet规模的零-shot学习，并实现了最先进的性能。

I2MVFormer：

我们在第五章中扩展了I2DFormer框架，结合了多种互补的文本来源。我们提出了一种新观点，利用大语言模型（LLM）作为注释者，基于不同的k-shot示例进行条件生成。我们展示了，当被不同的k-shot示例提示时，LLM可以模拟多个注释者，揭示有关每个类别的互补信息。我们提出了一个新模型I2MVFormer，它可以利用类的多重描述来学习一个强大的零-shot泛化模型。我们表明，LLM生成的文本提供了丰富的语义信息，使模型比I2DFormer具有更全面的类理解。I2MVFormer在零-shot分类基准测试中显著提高了性能。

SILC：

在第六章中，我们基于CLIP[116]最初提出的开放集模型建立了一个并行线索。CLIP通过在互联网规模的图像-文本数据集上进行对比学习，学习了一个强大的开放集模型。由于互联网规模的数据集几乎覆盖了模型可能在下游遇到的所有视觉原语和类别，CLIP为各种计算机视觉数据集提供了强大的零-shot迁移。此外，CLIP还作为一个比以前的ImageNet黄金标准更强大的模型初始化，用于训练专业化的模型。然而，CLIP的特征在像分割和检测这样需要模型理解图像局部语境的密集预测任务中表现较弱[110]。我们通过引入局部到全局一致性学习作为对比学习的附加目标，解决了CLIP的这一局限性。我们的模型SILC在所有开放集计算机视觉任务上相比CLIP和其他同类模型有了显著改善。这些改进在分割、检测、字幕生成等需要模型更好捕捉图像局部语义的任务上尤其明显。 这三项贡献共同探讨了人类语言在文本形式中作为开放集计算机视觉强大泛化信号的力量。

它们展示了如何利用文本描述和大语言模型增强开放集泛化能力，使模型无需在图像数据上进行监督训练即可泛化到新类别。通过弥合视觉和语言之间的鸿沟，我们展示了这项研究有可能显著推进开放集计算机视觉领域的发展。我们希望它能够为更强大、更智能的系统铺平道路，使这些系统能够在不断变化的视觉世界中进行导航。

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【MIT博士论文】从现实世界中学习并为现实世界服务的三维建模与仿真，251页pdf

专知会员服务

32+阅读 · 2024年3月26日

【伯克利博士论文】通过生成式模型实现视觉与语言理解，109页pdf

专知会员服务

41+阅读 · 2024年1月20日

【NUS博士论文】深度表示学习的视频基础模型，236页pdf

专知会员服务

31+阅读 · 2023年12月26日

【CMU博士论文】语言理解与生成优化技术，145页pdf

专知会员服务

36+阅读 · 2023年11月22日