摘 要 视觉分割是计算机视觉领域的核心任务,旨在将图像或视频帧中的像素分类以划分成不同区域 .得益于 视觉分割技术的快速发展,该技术在自动驾驶、航空遥感和视频场景理解等多种应用领域中发挥着关键作用.近年 来,基于 Transformer的视觉分割技术因具备长程依赖建模能力而备受关注 .随着 Transformer的模型架构的持续 优化与迭代,亟须更全面地理解和认识Transformer在视觉分割领域的已有进展和发展趋势,通过发现现有研究中 的不足和挑战,以更深入地探索 Transformer的核心理论 .为此,本文从图像/视频两个视觉脉络出发,整理、回顾、 分析和探讨了近年来基于 Transformer的视觉分割相关技术进展,不仅归纳了 Transformer的理论框架,还给出了 一些应用实例和研究热点,从而做出总结和展望 .具体来说,首先梳理了 Transformer的背景,包括问题定义、数据 集和评估指标、基本结构,其中,问题定义描述了视觉分割在图像/视频任务中的预期目标和结果;数据集和评估指 标反映了模型的具体应用场景,以及性能的衡量标准;基本结构则描述了算法的核心模块、实现流程以及各个模块 之间的关系.然后,着重阐述了Transformer在图像语义分割、图像实例分割,以及视频语义分割和视频实例分割四 个方法体系,并探讨了当前的研究热点.对于图像语义分割任务,分析了Transformer的代表性结构,包括纯Trans⁃ former和双分支结构,并以无人机影像非铺装道路分割和遥感图像语义分割为实际应用案例,探讨了Transformer 的改进动机与应用效果,并展示了主观结果;图像实例分割总结了常见的非端对端 Transformer 和端对端 Trans⁃ former典型结构.视频语义分割主要分为面向精度的和面向效率的Transformer结构,视频实例分割则包括逐帧和 逐片段 Transformer 分割,并以网络直播视频实例分割为应用实例,一方面讨论了可用的数据集、实验参数和评 估指标,另一方面,对网络直播视频实例分割主流方法性能进行了评价和分析,展示了一些主观可视化结果 . 之 后,鉴于视觉分割领域的 SAM 大模型、开放词汇分割、指代分割受到了广泛关注,本文将这些热点问题方法进行 了追溯和评述,以期碰撞出视觉分割的新思路和新灵感 . 最后,尽管基于 Transformer 在视觉分割技术受到了广 泛的关注,但存在的科学问题也逐渐凸显,限制了模型性能与效率的进一步提升,对此本文总结了利用 Trans⁃ former开展图像/视频语义/实例分割仍需关注的难点问题,并对未来可能的发展方向进行了展望,提供了一些启 示供参考 . 关键词 视觉分割;Transformer;语义分割;实例分割;自注意力机制