在过去的几年里,计算机视觉深度学习技术的快速发展极大地提升了医学图像分割(MedISeg)的性能。然而,最近的MedISeg出版物通常专注于主要贡献的介绍(例如,网络架构、训练策略和损失函数),而无意中忽略了一些边缘实现细节(也称为“技巧”),导致了不公平的实验结果比较的潜在问题。本文收集了一系列MedISeg的技巧,适用于不同的模型实现阶段(即模型实现阶段)。分别是预训练模型、数据预处理、数据增强、模型实现、模型推理和结果后处理),并通过实验探讨了这些技巧在一致性基线模型上的有效性。通过在具有代表性的二维和三维医学图像数据集上的大量实验结果,我们明确阐明了这些技巧的效果。此外,基于所综述的技巧,我们还开放了一个强大的MedISeg存储库,其中每个组件都具有即插即用的优势。我们相信,这一里程碑式的工作不仅完成了对最先进的MedISeg方法的全面和补充调研,而且为解决未来医学图像处理的挑战提供了实用指南,包括但不限于小数据集学习、类不平衡学习、多模态学习和领域适应。代码已在:MedISeg发布。
https://www.zhuanzhi.ai/paper/0ba1c2c9f04d29f946c9ecb25821202e
引言
医学图像分割(MedISeg)是计算机视觉和医学图像分析领域最具代表性和综合性的研究课题之一。它不仅能识别物体类别,还能定位出像素级的位置[4]-[9]。在临床实践中,MedISeg已成功应用于定性和定量分析的广泛潜在应用领域,如癌症诊断[10]、肿瘤变化检测[11]、治疗计划[12]和计算机集成手术[13]。为了实现令人满意的分割性能,关键挑战之一是使分割模型能够学习一组丰富而具有鉴别性的特征表示[14]-[17]。
近年来,由于图像处理深度学习技术[17]-[21]的显著进步,MedISeg的性能有了很大的提高[5]、[22]-[29]。高级骨干(如AlexNet [30], VGG [31], ResNet [18], DenseNet [21], MobilNet [32], ShuffleNet [33], ResNeXt [34] HRNet [35], RegNet [36], ViT [37], SwinTransformer [38], CMT [39], ConFormer [40], CvT[41])天生可以学习丰富的语义特征表示,直接促进MedISeg的识别能力。某些详细的特征规则(例如,横向连接[42]、残差映射[18]、[21]、编码器-解码器方案[43]、[44]、密集连接[8]、特征金字塔[45]和全局上下文聚合[46]、[47])也可以提高性能。将这些复杂的元素集成到统一的MedISeg系统中是MedlSystem性能如此良好的主要原因。此外,一些训练策略(如联合训练[48]、[49]、联合教学[50]、[51]、联合学习[52]、[53]、测试时间训练[54]、[55])和一些成熟的损失函数(如交叉熵损失、骰子损失、Lovasz-softmax损失[56]、[57])也是影响模型性能[58]、[59]不可或缺的组成部分。
然而,进展的迹象不是单独提出的,它们通常与现有的实现混合在一起[60],[61]。特别是,目前,一个完整的MedISeg系统通常由大量的实现细节(包括一些非学习模型无关的预处理过程)组成,以实现理想的最先进的识别性能[5],[62]-[65]。不幸的是,官方出版物中很少有边缘实现描述(也称为“技巧”),或者只在发布的代码中介绍(在补充材料中有一些)。例如,如图1所示,在流行的ResNet[18]体系结构(通常被视为MedISeg模型的主流骨干网)的修改输入干中,使用三个累积的3 × 3卷积层(图1 (b))来取代输入干中原来的7×7卷积层(图1 (a)),以减少计算成本[66]-[68]。尽管这种细微的变化可以显著提高[21],[61],[69],[70]的准确性,但很少有出版物明确提及这一点。因此,将基于这种修改后的实现的性能与基于原始实现的性能进行比较本质上是不公平的。
细节决定成败。在这项工作中,为了揭示技巧对MedISeg模型(如图2所示)的影响,根据一套完整的实现阶段,包括预训练模型(参考3.1节)、数据预处理(参考3.2节)、数据增强(参考3.3节)、模型实现(参考3.4节)、模型推断(参考3.5节)和结果后处理(参考3.6节),我们首先收集了一系列在当前的MedISeg模型中被忽略的实用的和有代表性的技巧。然后,借助代表性卷积神经网络(CNNs)骨干网,在包括典型2D-UNet[43]和3D-UNet[71]在内的一致分割基线模型上实验探索这些技巧的有效性,从而避免模型变量的影响(即由于模型变化而导致的性能变化)。相比于现有论文驱动的技术调研,只平淡地关注图像分割模型的优点和局限性分析,我们的工作提供了大量的扎实的实验结果,在技术上更具有可操作性。基于四种医学图像数据集(即具有挑战性的2D ISIC 2018病灶边界分割数据集[72]、2D结肠核识别和计数挑战数据集[73]、[75]、3D肾脏肿瘤分割2019数据集[74]和3D肝脏肿瘤分割挑战数据集[63])上的大量实验结果,我们明确阐明了这些技巧的效果。此外,基于所调研的技巧和使用的基线模型,我们还开放了一个强大的MedISeg存储库,其中每个组件都具有即插即用的优势。相信这一里程碑式的工作不仅完成了最先进的MedISeg方法的全面技术调研,而且为解决未来医学图像处理(特别是密集图像预测任务)的挑战(包括小数据集学习、类不平衡学习、多模态学习和领域适应)提供了实用指南。
这项工作的主要贡献可以概括如下:
我们为不同的实现阶段收集了一系列MedISeg技巧,并通过实验探索了这些技巧在一致的CNN基线模型上的有效性。
我们明确阐明了这些技巧的有效性,并且在2D和3D医学图像数据集上大量可靠的实验结果弥补了MedISeg中实施疏忽。
我们开源了一个强大的MedISeg存储库,其中包括丰富的分割技巧,每个都有即插即用的优势。
这项里程碑式的工作将促进后续在公平环境下比较MedISeg模型的实验结果。
该工作将为今后医学图像处理特别是分割挑战提供实际指导。
在第二节中,我们首先介绍了初步的实验设置,包括基线模型、实验设置、使用的数据集和评价指标。在第3节中,我们根据顺序训练阶段介绍了收集到的技巧,并提供了广泛的实验结果和详细的实验分析。在第四部分中,对整篇论文包括这一任务所面临的挑战进行了全面的讨论。最后,在第五部分,我们给出了一个结论,并指出了潜在的方向。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“C424” 就可以获取《【MIT博士论文】非参数因果推理的算法方法,424页pdf》专知下载链接