医学影像分析中的强化学习:概念、应用、挑战与未来方向

医学影像分析的任务是协助医生对病变或解剖结构进行定性和定量分析，显著提高诊断和预后的准确性和可靠性。传统上，这些工作都是由医生或医学物理学家完成的，这导致了两个主要问题: (1) 效率低; (ii) 个人经验的偏见。在过去的十年中，许多机器学习方法被用于加速和自动化图像分析过程。与大量部署的有监督和无监督学习模型相比，在医学图像分析中使用强化学习的尝试非常少。本文可作为相关研究的基础。

从我们的观察来看，虽然强化学习在近年来逐渐兴起，但许多医学分析领域的研究人员发现，强化学习在诊所中很难理解和部署。一个原因是缺乏组织良好的综述文章，目标读者缺乏专业的计算机科学背景。本文并没有提供医学图像分析中所有强化学习模型的综合列表，而是帮助读者学习如何制定和解决他们的医学图像分析研究作为强化学习问题。

我们选择谷歌Scholar和PubMed发表的文章。考虑到相关文章的稀缺，我们也收录了一些优秀的最新预印本。根据图像分析任务的类型对论文进行了仔细的调研和分类。我们首先回顾了强化学习的基本概念和常用模型。然后，我们探讨了强化学习模型在地标检测中的应用。最后，我们通过讨论综述的强化学习方法的局限性和可能的改进来总结文章。

医学图像分析的目的是利用数字图像处理从医学图像中挖掘和分析有价值的信息，帮助医生做出更准确可靠的诊断和预后。根据不同的成像原理，常见的成像方式可分为CT、MR、Ultrasound、SPECT、PET、X射线、OCT和显微镜。医学图像处理还可以根据具体的处理任务进行分类。典型的任务包括分类、分割、注册和识别。图1显示了本文的调研范围。

随着成像技术的发展和成像设备的迭代更新，医学成像所需的时间大大缩短，成像分辨率也显著提高。与此同时，医学图像的数据量也出现了前所未有的激增，并呈现出高维化的趋势。医生对医学图像的传统手工分析变得繁琐和低效。越来越多的医生希望通过与工程师合作来实现这一过程的自动化。医学成像和机器学习领域就是这样诞生的。自然图像分析领域的许多优秀算法在医学图像领域也表现出了良好的结果(Shen et al.， 2017)。

强化学习既不是监督学习，也不是无监督学习。强化学习的目标是获得最大的预期累积奖励(Sutton & Barto, 2018)。图2展示了机器学习、监督学习、无监督学习、强化学习和深度学习之间的关系。

机器学习、监督学习、无监督学习和强化学习之间的关系

在过去二十年中，与强化学习相关的论文发表数量迅速增长。最先进的RL模型已被应用于解决其他机器学习方法难以或不可行的问题，如玩电子游戏(Mnih et al., 2013; Mnih et al., 2015; Silver et al., 2017)、自然语言处理(Sharma & Kaushik)和自动驾驶(salab et al.， 2017)。这些RL方法都取得了优异的性能。然而，在医学分析领域利用RL技术发展的尝试很少。图3显示了在医学图像分析中发表的机器学习和强化学习论文数量的趋势。尽管总体上呈增长趋势，但RL发表的论文数量仍然只占机器学习在医学图像分析中的一小部分。另一方面，RL方法在处理医学图像数据方面具有独特的优势:

RL模型可以在有监督的动作指导下逐步有效地从有限的注释中学习，而医疗数据往往缺乏大规模的可访问注释。 RL模型的偏差较小，因为它们不会从人类注释器所做的标签中继承偏差。

EL智能体可以从连续的数据中学习，并且学习过程是有目标的。除了开发经验，它还可以探索新的解决方案。在解决同样的问题时，RL甚至可以超越人类专家。

通过回顾这些论文的内容，分析它们的共同点，比较它们的不同点，我们希望能够对我们的目标研究人员(i)更好地理解RL，(ii)了解如何将他们的研究问题作为RL问题来制定。在接下来的两个部分中，我们将首先为读者准备RL的基本知识。然后我们将展示如何在不同的医学图像分析任务中应用RL。那些已经熟悉RL算法的读者可以直接进入应用部分。

医学图像检测

医学图像分割

医学图像分类

分类是医学图像分析中最基本的任务之一。常见的医学图像分类任务包括疾病诊断和预后、异常检测和生存预测。根据从图像中提取的信息，在预定义的类之间分配一个标签。由于大多数分类方法都有充分的监督，这些方法在真实的临床环境中往往会由于缺乏高质量的标记数据而失败。

医学图像合成

医学图像合成是生成合成图像的过程，其中包括一种特定或多种图像模态的人工病变或解剖结构。通常有两种类型的医学图像合成(Wang et al.， 2021):(i)跨模态: 将一种特定模态的图像转换为另一种模态，例如，CT转换为MRI; (ii) 内模态:在相同模态下转换成像协议，如T1序列MRI到T2序列，或根据现有的相同模态图像生成新的图像。如今，医学图像合成算法以生成对抗网络(GANs) (Goodfellow et al.， 2014)为主导，因为它们能够提供具有大多样性的可视化合成图像。许多具有不同框架和技术的GAN，如贝叶斯条件GAN (Zhao等人，2020年)、渐进生长GAN (Guan等人，2022年)、自注意力模块(Lan等人，2021年)和深度监督(Pan等人，2021年)，在各种医学图像合成应用中提出并实现了最先进的性能。为了综述的全面性，我们稍微扩展了图像合成的概念，在本节中加入了辐射剂量图规划。

医学图像配准

图像配准是将两幅不同的图像转换为相同坐标的过程。在医学成像领域，注册可以是患者间、患者内(但在不同的时间点)、多通道(如MRI、CT、CBCT、超声)、多维间(2D-3D)。转换模型也可以根据配准对的属性而变化。它通常可以分为刚性变换、仿射变换和可变形变换，其中刚性变换是使用参数模型实现的最简单的一种。传统的配准方法是通过优化相似度来完成的。然而，医学图像的高维和组织的变形和伪影使得这种方法不稳定，有时甚至是不可行的。基于agent的方法的出现从一个完全不同的角度解决了注册问题- MDP过程的制定。在RL代理的控制下，配准任务实现了前所未有的鲁棒性和精度。