来自新加坡国立最新《Transformer医学图像分析》综述,33页pdf概述医学图像分类分割技术

Transformer 在自然语言处理(NLP)领域占据了很长一段时间。近年来,基于Transformer 的方法被广泛应用于计算机视觉领域,并取得了良好的效果。医学图像分析作为CV领域的一个重要分支,正当地加入了基于Transformer的方法的浪潮。在本文中,我们阐述了注意力机制的原理,Transformer 的详细结构,并描述了Transformer如何被采用到CV领域。我们按照不同的CV任务顺序组织基于Transformer的医学图像分析应用,包括分类、分割、合成、配准、定位、检测、字幕和去噪。对于主流的分类和分割任务,我们根据不同的医学影像方式进一步划分了相应的工作。我们的工作包括13种模式和20多个对象。我们还将每个情态和物体所占的比例可视化,给读者一个直观的印象。希望我们的工作能为未来基于Transformer 的医学图像分析的发展做出贡献。

Transformer[1]是自然语言处理(NLP)领域中应用最广泛的模型之一,在释义生成[2]、文本到语音合成[3]、语音识别[4]等任务中取得了巨大的成功。它被设计用于转导和序列建模在建模远程依赖与数据的显著能力内。Transformer由编码器和解码器组成,其中编码器和解码器是连续相同块的串联。它是无卷积的,完全基于自注意力机制,本文简称为注意力机制。注意力机制是将单个序列的不同位置关联起来,计算序列表示[1]的过程。在语句嵌入[5]、自然语言推理[6]、抽象摘要[7]、机器阅读[8]等NLP任务中取得了很大的成功。

与NLP领域不同,计算机视觉(CV)领域自AlexNet[12]提出以来,长期以来无论是分类[10]、分割[11]、检测[11],还是其他任务,都由卷积神经网络9主导。CNN是一种深度学习(deep learning, DL)模型,用网格模式处理数据,旨在捕捉特征的空间层次[13]。它具有显著的感应能力,由多种块体组成,如卷积层、全连通层等。受transformer在NLP领域取得成功的启发,许多尝试将CNN和attention结合起来[14,15],但这些尝试都没有影响CNN在CV领域的领导地位。在2020年,Dosovitskiy和同事[16]提出了一个将CNN和Transformer 直接结合的革命模型。它们对CV域使用的图像进行修补和嵌入,并将嵌入的图像提供给NLP域使用的改进transformer编码器。他们提出的工作取得了前所未有的成功,开启了用基于transformer的方法解决CV任务的里程碑。到目前为止,基于transformer 的方法已经在许多CV任务中实现,并取得了较好的效果[17,18,19]。

医学图像分析是简历领域的一个重要分支,它也应该参与到这场革命中来。它是一个处理和创建体内[20]视觉表征的过程,能够帮助医生从不同方面进行诊断。医学图像可以分为不同的模式,如MRI、CT、x射线等,这取决于图像捕获的方式。基于transformer的方法在医学图像分析中得到了广泛的应用,无论是单独使用transformer[21]还是将CNN和transformer混合来获取局部和全局信息[22]。尽管如此,仍有研究空白。以往基于transformer的医学图像分析研究都是报告实验结果的原创研究,据我们所知没有相关的发表评论。已有的文献综述[23,24,25,26,27]都集中于使用基于CNN的方法分析医学图像。为了对基于transformer的医学图像分析提供指导,我们写了这篇综述,相信它可以为进一步的研究做出很大的贡献。我们工作的整体工作流程如图1所示。

图1 我们工作的整体工作流程。我们首先在数据库中搜索相关的论文,然后删除不相关的论文。精选的论文根据不同的任务配图。在分类和分割方面,由于大量的工作,我们进一步按照模态进行划分。对于所有的任务,有13种模式包括和超过20个对象相关。最后,对模型和对象进行了总结。 本文其余部分的组织如下:在第2章中,我们阐述了注意力机制的原理,transformer 的详细结构,并描述了transformer 如何被引入CV领域。在第三章中,我们从不同的CV任务角度组织基于transformer 的医学图像分析应用,包括分类、分割、合成、配准、定位、检测、字幕和去噪。还列出了使用的相关数据集。为了分类和分割,我们进一步将工作按照模式进行划分。在这项工作中有13种模式和20多个对象。我们还将每个情态和物体所占的比例可视化,给读者一个直观的印象。第四章是结论和存在的挑战。

应用

我们在不同的CV任务序列中阐述了基于Transformer的医学图像分析应用,包括分类、分割、合成、配准、定位、检测、字幕和去噪。介绍了相关数据集。对于分类和分割,由于包含了大量的工作,我们进一步通过x射线、US、MRI等方式进行划分。在这项工作中,我们包括了如图5所示的13种模态和20多个对象。我们还将每个模态和物体所占的比例可视化,给读者一个直观的印象。

分类

分类是将给定图像分类为不同类别的过程,这些类别本质上是标签,以协助疾病诊断。我们使用X射线、扫描仪、MRI、皮肤镜、显微镜、相机、CT、OCT和多个序列来列出基于分割的任务,其中工作包含一种以上的形式。表1总结了基于transformer的分割应用。

分割

分割是将图像分割成各种子组或对象的过程。它可以看作是对图像中所有像素进行分类的过程。我们使用MRI, CT, x线,US,眼底相机,扫描仪,喉镜,结肠镜,和多个作品的序列列出了基于分割的任务。基于transformer的分段工作总结如表2所示。

除了主流的分类和分割任务,还有很多有前途的任务。在这里,我们阐述了基于transformer的应用,旨在合成、配准、定位、检测、字幕和去噪。这部分的总结见表3。

成为VIP会员查看完整内容
92

相关内容

医学领域的人工智能是使用机器学习模型搜索医疗数据,发现洞察,从而帮助改善健康状况和患者体验。 得益于近年来计算机科学和信息技术的发展,人工智能 (AI) 正迅速成为现代医学中不可或缺的一部分。 由人工智能支持的人工智能算法和其他应用程序正在为临床和研究领域的医学专业人员提供支持。
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
75+阅读 · 2022年1月20日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
35+阅读 · 2022年3月14日
Transformers in Medical Image Analysis: A Review
Arxiv
39+阅读 · 2022年2月24日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
33+阅读 · 2022年2月15日
Arxiv
15+阅读 · 2022年1月24日
Arxiv
103+阅读 · 2021年6月8日
3D Deep Learning on Medical Images: A Review
Arxiv
12+阅读 · 2020年4月1日
Arxiv
110+阅读 · 2020年2月5日
Arxiv
136+阅读 · 2018年10月8日
VIP会员
相关VIP内容
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
75+阅读 · 2022年1月20日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
相关论文
Arxiv
35+阅读 · 2022年3月14日
Transformers in Medical Image Analysis: A Review
Arxiv
39+阅读 · 2022年2月24日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
33+阅读 · 2022年2月15日
Arxiv
15+阅读 · 2022年1月24日
Arxiv
103+阅读 · 2021年6月8日
3D Deep Learning on Medical Images: A Review
Arxiv
12+阅读 · 2020年4月1日
Arxiv
110+阅读 · 2020年2月5日
Arxiv
136+阅读 · 2018年10月8日
微信扫码咨询专知VIP会员