视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

本论文通过利用视觉Transformer（Vision Transformers, ViTs）的能力，探索计算机视觉中视觉感知的前沿领域，旨在创建一个统一的框架来应对跨任务和跨粒度的挑战。我们从人类视觉系统在不同细节层次处理视觉信息的能力以及Transformer在自然语言处理（NLP）中的成功中汲取灵感，力求弥合广泛视觉概念与其细粒度对应物之间的差距。本研究分为三个部分。首先，我们深入研究了ViTs的多种训练方法和架构，旨在收集宝贵的见解。这些见解将用于指导研究后续阶段对ViTs的优化，确保我们为其在复杂视觉任务中的性能提升奠定坚实的基础。其次，我们将研究重点转向精细粒度的视觉概念识别，利用精确的标注深入探索视觉场景中的复杂细节。在这一部分，我们面对的挑战是以极高的准确度识别和分类对象和像素，并充分利用我们在ViTs初步研究中获得的基础性见解。最后，在论文的第三部分，我们展示了语言如何作为桥梁，使仅接受图像识别训练的视觉语言模型能够在无需微调的情况下，在对象和像素等细粒度实体上导航众多视觉概念。

1.1 背景

人类视觉系统具有在不同细节层次处理视觉信息的非凡能力。例如，在观察另一个人时，可能首先对其整体有一个大致的感知，然后再选择集中注意于诸如面部、眼睛，甚至是眉毛等更精细的方面。这种能力展示了人类视觉系统将视觉输入提炼为层次化表示的能力，从广泛的概览到复杂的细节，从像素的基本构成到完整的物体。与此相似，在计算机视觉领域中，对视觉概念的理解方法各不相同，涵盖了从图像、对象到像素的不同框架和流程。为了识别这些多样化的视觉元素，数据被以相应的粒度水平进行标注，并使用特定任务的解码器进行分析。在本论文中，我们从现代的角度探讨了跨任务和跨粒度视觉表示学习的方法。我们的目标是构建一个能够同时执行多种不同粒度任务的视觉系统。为实现这一目标，我们将问题分为三个部分：

Vision Transformers的训练技术和架构结构。
利用精细粒度标注学习识别精细粒度的概念（如对象和像素）。
在开放领域中学习识别跨粒度概念。引言部分安排如下：第1.2节介绍本论文的动机。第1.3节说明论文的结构和组织。第1.4节列出了本论文包含的所有研究论文。

1.2 动机

**1.2.1 来自心理学的动机

广泛的心理学研究提供了有力的证据，表明人类视觉具有通过构建组合表示来分析和解释复杂场景的非凡能力。这一过程涉及识别从像素等粒度元素到部件、对象和整个场景等更抽象构造的部分-整体关系[115, 139]。这一能力凸显了人类视觉系统对感知的整合方法，将不同粒度层次无缝融合为对视觉世界的统一理解。相比之下，在计算机视觉领域，任务根据要识别元素的粒度进行划分，如图像、对象和像素，每个任务采用不同的架构和权重参数。这种方法与人类视觉的整合机制形成了对比。

**1.2.2 来自NLP领域的动机

Transformer架构[273]在自然语言处理（NLP）领域，特别是在大规模训练时，已证明其在处理序列数据方面的有效性。通过利用大规模数据集扩展模型的容量，可以构建基础模型[15, 74, 318]，能够以“零样本”方式处理不同粒度的各种任务。受到这一点的启发，我们旨在研究Vision Transformers（ViTs）在计算机视觉领域中的潜在适用性和有效性。同时，NLP领域的基础模型高度依赖于提示工程，这在视觉领域中尚未得到充分探索。

**1.2.3 来自多模态理解的动机

尽管视觉领域中的视觉实体粒度存在差异，从广泛的场景到具体的对象，甚至到单个像素，但这些实体往往在语言领域内收敛于一个统一的标签框架。例如，无论是指一个人在完整图像中的存在还是在更有限的区域（如边界框）内，描述通常保持一致。这一观察为通过在语言领域中锚定精细粒度视觉概念提供了一个有前景的途径。通过利用不同视觉细节水平之间语言描述的共性，创建一个更加统一和高效的视觉识别框架成为可能。

1.3 论文大纲与贡献

本节说明了论文的基本大纲，并总结了所有包含的论文的关键贡献。我们将论文分为三个部分：Vision Transformers的探索、跨任务和跨粒度视觉感知，以及开放词汇跨粒度视觉感知。第一部分：Vision Transformers的探索通过研究Vision Transformers（ViTs）的结构，我们的目标是将Transformer架构在自然语言处理中的变革能力适应到计算机视觉领域。这一工作旨在为视觉任务开发一个基础模型，类似于自然语言处理中取得的成功。在此背景下，我们展示了为2D图像量身定制的归纳偏差如何显著提升Vision Transformers学习过程的效率和效果。例如，在第二章中，我们尝试将2D窗口注意机制整合到架构中。尽管此类注意机制通常会带来高计算成本，但我们创新性地将局部注意和全局注意分离开来，从而在扩大模型感受野的同时保留详细信息。此外，我们的探索揭示了Vision Transformers在处理2D图像时采用的传统补丁划分方法的局限性，主要是由于信息在补丁间分布不均。为此，我们在两个方面提供了解决方案。在第三章中，我们引入了一个渐进采样模块，使得模型能够更集中地分析图像中信息丰富的区域。此外，第四章探讨了如何缓解图像输入与对应标签空间之间的不一致性。我们通过在CutMix技术[332]中对标签分配过程应用注意权重来实现这一目标，从而确保输入数据与其注释之间的更精确对齐。这种改进不仅提升了模型的性能，也更符合视觉感知的细微特性。第二部分：跨任务和跨粒度视觉感知在第一部分探索了使用Vision Transformers学习视觉表示之后，我们将研究进一步推进到利用这些知识创建一个能够识别多种视觉实体的统一框架。我们的目标是开发一个精通跨粒度视觉感知的模型，利用域内数据和不同的训练数据集。具体来说，在第五章中，我们介绍了一个基于部分-整体层次结构的模型架构，旨在识别图像、对象和像素级别的概念。然而，这一方法最初的表现不理想，原因在于数据来源的差异性和训练过程目标的不同。为了克服这些挑战，我们深入研究了利用域内数据来协调不同任务的训练目标的潜力。在第六章中，我们的研究集中于对齐实例分割和语义分割两个不同任务的训练目标。我们发现，较简单任务的训练目标可以作为较复杂、组合任务的一个初步步骤，或者说一个“放松”的版本。这一发现引发了一种新的训练策略，通过从简单任务入手，加速并增强了组合任务的学习过程。通过这种方法，我们不仅简化了训练过程，还取得了更优的性能，从而为能够在不同细节层次上驾驭视觉感知复杂性的模型做出了贡献。第三部分：开放词汇跨粒度视觉感知语言作为一个综合的标签框架，涵盖了广泛的视觉概念。然而，诸如边界框和分割掩码等精细粒度标注的创建通常受到高标注成本的限制。因此，大多数精细粒度视觉数据集的词汇量相对有限。同时，诸如CLIP等视觉语言基础模型，由于在更广泛的通用数据上训练，通常缺乏精细粒度的视觉分析能力。在第七章中，我们探讨了在无需任何训练的情况下，增强预训练CLIP模型的精细粒度视觉感知能力的可行性，特别是在图像分割等任务中。这一进展强调了利用语言作为通用描述符的潜力，以弥合广泛视觉概念与其更详细、精细粒度对应物之间的差距。论文列表：

成为VIP会员查看完整内容

相关内容

牛津大学 (University of Oxford)

关注 31

牛津大学是一所英国研究型大学，也是罗素大学集团、英国“G5超级精英大学”，欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人，包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月，泰晤士高等教育发布了2016-2017年度世界大学排名，其中牛津大学排名第一。

视觉语言导航：大模型时代的综述

专知会员服务

51+阅读 · 2024年7月10日