摘 要 视觉分割是计算机视觉领域的核心任务,旨在将图像或视频帧中的像素分类以划分成不同区域 .得益于 视觉分割技术的快速发展,该技术在自动驾驶、航空遥感和视频场景理解等多种应用领域中发挥着关键作用.近年 来,基于 Transformer的视觉分割技术因具备长程依赖建模能力而备受关注 .随着 Transformer的模型架构的持续 优化与迭代,亟须更全面地理解和认识Transformer在视觉分割领域的已有进展和发展趋势,通过发现现有研究中 的不足和挑战,以更深入地探索 Transformer的核心理论 .为此,本文从图像/视频两个视觉脉络出发,整理、回顾、 分析和探讨了近年来基于 Transformer的视觉分割相关技术进展,不仅归纳了 Transformer的理论框架,还给出了 一些应用实例和研究热点,从而做出总结和展望 .具体来说,首先梳理了 Transformer的背景,包括问题定义、数据 集和评估指标、基本结构,其中,问题定义描述了视觉分割在图像/视频任务中的预期目标和结果;数据集和评估指 标反映了模型的具体应用场景,以及性能的衡量标准;基本结构则描述了算法的核心模块、实现流程以及各个模块 之间的关系.然后,着重阐述了Transformer在图像语义分割、图像实例分割,以及视频语义分割和视频实例分割四 个方法体系,并探讨了当前的研究热点.对于图像语义分割任务,分析了Transformer的代表性结构,包括纯Trans⁃ former和双分支结构,并以无人机影像非铺装道路分割和遥感图像语义分割为实际应用案例,探讨了Transformer 的改进动机与应用效果,并展示了主观结果;图像实例分割总结了常见的非端对端 Transformer 和端对端 Trans⁃ former典型结构.视频语义分割主要分为面向精度的和面向效率的Transformer结构,视频实例分割则包括逐帧和 逐片段 Transformer 分割,并以网络直播视频实例分割为应用实例,一方面讨论了可用的数据集、实验参数和评 估指标,另一方面,对网络直播视频实例分割主流方法性能进行了评价和分析,展示了一些主观可视化结果 . 之 后,鉴于视觉分割领域的 SAM 大模型、开放词汇分割、指代分割受到了广泛关注,本文将这些热点问题方法进行 了追溯和评述,以期碰撞出视觉分割的新思路和新灵感 . 最后,尽管基于 Transformer 在视觉分割技术受到了广 泛的关注,但存在的科学问题也逐渐凸显,限制了模型性能与效率的进一步提升,对此本文总结了利用 Trans⁃ former开展图像/视频语义/实例分割仍需关注的难点问题,并对未来可能的发展方向进行了展望,提供了一些启 示供参考 . 关键词 视觉分割;Transformer;语义分割;实例分割;自注意力机制

成为VIP会员查看完整内容
9

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
25+阅读 · 2024年12月16日
从PINNs到PIKANs:物理信息机器学习的最新进展
专知会员服务
38+阅读 · 2024年10月27日
基于深度学习的小目标检测基准研究进展
专知会员服务
29+阅读 · 2024年4月30日
基于主动学习的图像分类技术:现状与未来
专知会员服务
36+阅读 · 2024年1月8日
基于图神经网络的小样本学习方法研究进展
专知会员服务
43+阅读 · 2023年11月18日
基于图神经网络的高光谱图像分类研究进展
专知会员服务
29+阅读 · 2023年10月8日
深度神经网络 FPGA 设计进展、实现与展望
专知会员服务
58+阅读 · 2022年3月26日
基于RGB-D图像的语义场景补全研究进展综述
专知会员服务
29+阅读 · 2021年11月8日
面向知识图谱的图嵌入学习研究进展
专知会员服务
61+阅读 · 2021年11月3日
专知会员服务
131+阅读 · 2020年7月10日
知识图谱KG在NLP的十年研究进展综述
专知
15+阅读 · 2022年10月4日
数据受限条件下的多模态处理技术综述
专知
17+阅读 · 2022年7月16日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
图像美学质量评价技术发展趋势
科技导报
18+阅读 · 2018年6月25日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
429+阅读 · 2023年3月31日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
25+阅读 · 2024年12月16日
从PINNs到PIKANs:物理信息机器学习的最新进展
专知会员服务
38+阅读 · 2024年10月27日
基于深度学习的小目标检测基准研究进展
专知会员服务
29+阅读 · 2024年4月30日
基于主动学习的图像分类技术:现状与未来
专知会员服务
36+阅读 · 2024年1月8日
基于图神经网络的小样本学习方法研究进展
专知会员服务
43+阅读 · 2023年11月18日
基于图神经网络的高光谱图像分类研究进展
专知会员服务
29+阅读 · 2023年10月8日
深度神经网络 FPGA 设计进展、实现与展望
专知会员服务
58+阅读 · 2022年3月26日
基于RGB-D图像的语义场景补全研究进展综述
专知会员服务
29+阅读 · 2021年11月8日
面向知识图谱的图嵌入学习研究进展
专知会员服务
61+阅读 · 2021年11月3日
专知会员服务
131+阅读 · 2020年7月10日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员