The CNN-based methods have achieved impressive results in medical image segmentation, but it failed to capture the long-range dependencies due to the inherent locality of convolution operation. Transformer-based methods are popular in vision tasks recently because of its capacity of long-range dependencies and get a promising performance. However, it lacks in modeling local context, although some works attempted to embed convolutional layer to overcome this problem and achieved some improvement, but it makes the feature inconsistent and fails to leverage the natural multi-scale features of hierarchical transformer, which limit the performance of models. In this paper, taking medical image segmentation as an example, we present MISSFormer, an effective and powerful Medical Image Segmentation tranSFormer. MISSFormer is a hierarchical encoder-decoder network and has two appealing designs: 1) A feed forward network is redesigned with the proposed Enhanced Transformer Block, which makes features aligned adaptively and enhances the long-range dependencies and local context. 2) We proposed Enhanced Transformer Context Bridge, a context bridge with the enhanced transformer block to model the long-range dependencies and local context of multi-scale features generated by our hierarchical transformer encoder. Driven by these two designs, the MISSFormer shows strong capacity to capture more valuable dependencies and context in medical image segmentation. The experiments on multi-organ and cardiac segmentation tasks demonstrate the superiority, effectiveness and robustness of our MISSFormer, the exprimental results of MISSFormer trained from scratch even outperforms state-of-the-art methods pretrained on ImageNet, and the core designs can be generalized to other visual segmentation tasks. The code will be released in Github.


翻译:以CNN为基础的方法在医疗图像分割方面取得了令人印象深刻的结果,但是它未能捕捉到长期依赖性,这是因为具有内在的变异操作地点。以变异器为基础的方法最近因其远距离依赖性的能力而在视觉任务中很受欢迎,并且取得了有希望的性能。然而,在模拟当地环境方面却缺乏。尽管有些工作试图嵌入变异层以克服这一问题并取得一些改进,但它使得其特征不一致,未能利用等级变异器的自然多尺度特征,从而限制模型的性能。在本文中,以医疗图像分割为例,我们展示了MSISFormer,一个有效和强大的医学图像变异性分析工具。 MISSFormer是一个等级级的变异形变异功能网络,具有两种具有吸引力的设计:(1) 饲料前网络与拟议增强变异变层的变异形结构进行重新设计,使特征适应性变异性特点和增强长期依赖性和当地环境环境环境。 我们提出了增强变异变异结构的背景桥梁,一个与更强的变异变异结构环境连接到模型,在更远的内更远的变变变变型的内变型结构结构中,多级变变变变变变变变变变型结构结构的变变变变变变的变形结构的机变后,多级结构将显示的机变式的变形结构的变形结构的变变后变变变变变变后演化、多级模型将演化、多级结构的变式的变式的变后演化、多级、变式的变式的变形性变型性变式的变型性变式、多级性变型性变型、变式、变型性变型性变型性变式、多级、变式、变式、变式、变式的变式变式变式的变式变式变型、变式变型、变型、变型、变式变型、变型、变式变式变式变式变式变式变式变式变型、变式变式变式变型、变式的变式、变式、变式的变式变型、变式、变式、变式变式变式变式变型、变型、变式变型、变型、变式

2
下载
关闭预览

相关内容

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。 所谓图像分割指的是根据灰度、颜色、纹理和形状等特征把图像划分成若干互不交迭的区域,并使这些特征在同一区域内呈现出相似性,而在不同区域间呈现出明显的差异性。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Arxiv
0+阅读 · 2021年11月4日
Arxiv
3+阅读 · 2018年3月14日
Arxiv
3+阅读 · 2018年2月12日
VIP会员
Top
微信扫码咨询专知VIP会员