【ETHZ博士论文】用于视觉场景理解的领域鲁棒网络架构与训练策略

理解图像内容是许多应用的重要组成部分，例如自动驾驶、增强现实、机器人、医学影像和遥感。随着深度神经网络的突破，语义图像理解在过去几年中取得了显著进展。然而，神经网络需要大量标注数据才能进行适当训练。由于大规模真实世界数据集的标注成本高昂，网络可以在具有现成或较低成本标注的数据集（如自动标注的合成数据）上进行训练。然而，神经网络通常对领域偏移（domain shifts）敏感，因此在与训练数据不同的领域中表现较差。因此，无监督领域适应（UDA）和领域泛化（DG）方法的目标是使在源域（例如合成数据）上训练的模型在未标注或甚至未见过的目标域（例如真实世界数据）上表现良好。

大多数UDA/DG研究专注于设计适应和泛化技术以克服领域偏移的问题。然而，学习框架中其他方面对领域鲁棒性的影响大多被忽视。因此，我们从更全面的角度研究领域鲁棒性，探讨不同学习框架方面对UDA和DG的影响，包括网络架构、通用训练方案、图像分辨率、裁剪大小和上下文信息。特别是，我们解决了现有DG和UDA方法中的以下问题：(1) 我们研究了最新架构对领域鲁棒语义/全景分割的影响，并设计了一种专为领域泛化和领域适应分割量身定制的网络架构，而不是依赖过时的分割架构来评估DG/UDA策略。(2) 为了避免对源域的过拟合，我们提出了保持先验知识的通用训练策略。(3) 为了在DG/UDA增加的GPU内存消耗下实现精细的分割细节，我们提出了一个领域鲁棒且内存高效的多分辨率训练框架。(4) 为了解决目标域的局部外观歧义，我们提出了一种增强空间上下文关系学习的方法。以下段落详细介绍了这些贡献。

由于之前的UDA和DG语义分割方法大多基于过时的DeepLabV2网络和ResNet骨干网络，我们对较新的架构进行了基准测试，揭示了Transformer的潜力，并设计了DAFormer网络架构，专为UDA和DG量身定制。它由分层Transformer编码器和多级上下文感知特征融合解码器组成。DAFormer网络通过三种简单但至关重要的训练策略来稳定训练并避免对源域的过拟合：在源域上进行稀有类采样，通过缓解自训练对常见类别的确认偏差，改善伪标签的质量；Thing-Class ImageNet特征距离和学习率预热有助于从ImageNet预训练中转移特征。通过这些技术，DAFormer在UDA和DG中实现了显著的性能提升，甚至能够学习像火车、公交车和卡车等难以分类的类别。

此外，我们研究了全景分割的主要架构设计及其UDA能力。我们表明，之前的全景UDA方法在设计上做出了次优选择。基于这些发现，我们提出了EDAPS，一种特别为领域适应全景分割设计的网络架构。它使用一个共享的领域鲁棒Transformer编码器，以促进语义和实例特征的联合适应，同时针对领域适应语义分割和实例分割的具体需求设计了任务特定解码器。

虽然DAFormer和EDAPS能够更好地区分不同的类别，但我们观察到它们缺乏精细的分割细节。我们将其归因于使用了下采样的图像，导致了低分辨率的预测。然而，直接使用全分辨率图像在UDA/DG中由于其较高的GPU内存消耗而不可行。使用高分辨率图像的随机裁剪进行训练虽然缓解了这一问题，但在捕捉长程、领域鲁棒的上下文信息方面表现不足。因此，我们提出了HRDA，一种用于UDA和DG的多分辨率训练方法，结合了小型高分辨率裁剪以保留精细分割细节和大型低分辨率裁剪以捕捉长程上下文依赖关系，同时保持可管理的GPU内存占用。HRDA能够适应小物体并保留精细分割细节，显著提高了之前UDA和DG方法的性能。

即使有了DAFormer和HRDA改进的区分能力和高分辨率性能，UDA方法在目标域中具有类似视觉外观的类别上仍然表现挣扎，因为没有可用的真实标签来学习细微的外观差异。为了解决这个问题，我们提出了一个掩码图像一致性（MIC）模块，通过学习目标域的空间上下文关系作为稳健视觉识别的额外线索，来增强UDA。MIC通过对随机遮蔽的目标图像的预测与基于完整图像生成的伪标签之间的一致性进行约束。为了最小化一致性损失，网络必须学会从上下文中推断被遮蔽区域的预测。由于其简单且通用的概念，MIC可以集成到各种UDA方法中，涵盖不同的视觉识别任务，如图像分类、语义分割和目标检测。MIC显著提高了不同识别任务和领域差距的最新性能。

总体而言，本论文揭示了在领域鲁棒的视觉场景理解中，从网络架构和通用训练策略等学习框架的不同方面进行全面考量的重要性。所提出的方法大幅提升了从合成到真实、白天到夜晚、晴朗到恶劣天气等多个感知任务的领域适应性能。例如，在GTA→Cityscapes的语义分割中，它们实现了+18.4 mIoU的总体提升。超越领域适应，DAFormer和HRDA甚至在更具挑战性的领域泛化设置中也表现出色，在从GTA泛化到5个未见的真实世界数据集时，性能提升了+12.0 mIoU。实现已开源并可在https://github.com/lhoyer上获取。

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【NUS博士论文】视频语义理解中的因果模型

专知会员服务

36+阅读 · 2024年10月30日

【MIT博士论文】高效深度学习计算的模型加速

专知会员服务

34+阅读 · 2024年8月23日

【MIT博士论文】优化与现代机器学习的融合：理论、计算与医疗应用

专知会员服务

29+阅读 · 2024年8月15日

【CMU博士论文】现代深度学习高效训练策略的进展：从隐式深度学习到语言模型及其拓展领域

专知会员服务

21+阅读 · 2024年7月5日