新加坡国立最新《Transformer医学图像分析》综述，33页pdf概述医学图像分类分割技术

来自新加坡国立最新《Transformer医学图像分析》综述，33页pdf概述医学图像分类分割技术

Transformer 在自然语言处理(NLP)领域占据了很长一段时间。近年来，基于Transformer 的方法被广泛应用于计算机视觉领域，并取得了良好的效果。医学图像分析作为CV领域的一个重要分支，正当地加入了基于Transformer的方法的浪潮。在本文中，我们阐述了注意力机制的原理，Transformer 的详细结构，并描述了Transformer如何被采用到CV领域。我们按照不同的CV任务顺序组织基于Transformer的医学图像分析应用，包括分类、分割、合成、配准、定位、检测、字幕和去噪。对于主流的分类和分割任务，我们根据不同的医学影像方式进一步划分了相应的工作。我们的工作包括13种模式和20多个对象。我们还将每个情态和物体所占的比例可视化，给读者一个直观的印象。希望我们的工作能为未来基于Transformer 的医学图像分析的发展做出贡献。

Transformer[1]是自然语言处理(NLP)领域中应用最广泛的模型之一，在释义生成[2]、文本到语音合成[3]、语音识别[4]等任务中取得了巨大的成功。它被设计用于转导和序列建模在建模远程依赖与数据的显著能力内。Transformer由编码器和解码器组成，其中编码器和解码器是连续相同块的串联。它是无卷积的，完全基于自注意力机制，本文简称为注意力机制。注意力机制是将单个序列的不同位置关联起来，计算序列表示[1]的过程。在语句嵌入[5]、自然语言推理[6]、抽象摘要[7]、机器阅读[8]等NLP任务中取得了很大的成功。

与NLP领域不同，计算机视觉(CV)领域自AlexNet[12]提出以来，长期以来无论是分类[10]、分割[11]、检测[11]，还是其他任务，都由卷积神经网络9主导。CNN是一种深度学习(deep learning, DL)模型，用网格模式处理数据，旨在捕捉特征的空间层次[13]。它具有显著的感应能力，由多种块体组成，如卷积层、全连通层等。受transformer在NLP领域取得成功的启发，许多尝试将CNN和attention结合起来[14,15]，但这些尝试都没有影响CNN在CV领域的领导地位。在2020年，Dosovitskiy和同事[16]提出了一个将CNN和Transformer 直接结合的革命模型。它们对CV域使用的图像进行修补和嵌入，并将嵌入的图像提供给NLP域使用的改进transformer编码器。他们提出的工作取得了前所未有的成功，开启了用基于transformer的方法解决CV任务的里程碑。到目前为止，基于transformer 的方法已经在许多CV任务中实现，并取得了较好的效果[17,18,19]。

医学图像分析是简历领域的一个重要分支，它也应该参与到这场革命中来。它是一个处理和创建体内[20]视觉表征的过程，能够帮助医生从不同方面进行诊断。医学图像可以分为不同的模式，如MRI、CT、x射线等，这取决于图像捕获的方式。基于transformer的方法在医学图像分析中得到了广泛的应用，无论是单独使用transformer[21]还是将CNN和transformer混合来获取局部和全局信息[22]。尽管如此，仍有研究空白。以往基于transformer的医学图像分析研究都是报告实验结果的原创研究，据我们所知没有相关的发表评论。已有的文献综述[23,24,25,26,27]都集中于使用基于CNN的方法分析医学图像。为了对基于transformer的医学图像分析提供指导，我们写了这篇综述，相信它可以为进一步的研究做出很大的贡献。我们工作的整体工作流程如图1所示。

图1 我们工作的整体工作流程。我们首先在数据库中搜索相关的论文，然后删除不相关的论文。精选的论文根据不同的任务配图。在分类和分割方面，由于大量的工作，我们进一步按照模态进行划分。对于所有的任务，有13种模式包括和超过20个对象相关。最后，对模型和对象进行了总结。本文其余部分的组织如下:在第2章中，我们阐述了注意力机制的原理，transformer 的详细结构，并描述了transformer 如何被引入CV领域。在第三章中，我们从不同的CV任务角度组织基于transformer 的医学图像分析应用，包括分类、分割、合成、配准、定位、检测、字幕和去噪。还列出了使用的相关数据集。为了分类和分割，我们进一步将工作按照模式进行划分。在这项工作中有13种模式和20多个对象。我们还将每个情态和物体所占的比例可视化，给读者一个直观的印象。第四章是结论和存在的挑战。

应用

我们在不同的CV任务序列中阐述了基于Transformer的医学图像分析应用，包括分类、分割、合成、配准、定位、检测、字幕和去噪。介绍了相关数据集。对于分类和分割，由于包含了大量的工作，我们进一步通过x射线、US、MRI等方式进行划分。在这项工作中，我们包括了如图5所示的13种模态和20多个对象。我们还将每个模态和物体所占的比例可视化，给读者一个直观的印象。