人工智能(AI)理论的持续发展推动了这一领域的前所未有的高度,这归功于学者和研究人员的不懈努力。在医学领域,人工智能发挥着关键作用,依托强大的机器学习(ML)算法。医学影像中的人工智能技术帮助医生进行X射线、计算机断层扫描(CT)和磁共振成像(MRI)诊断,基于声学数据进行模式识别和疾病预测,提供疾病类型及发展趋势的预后,利用智能健康管理可穿戴设备结合人机交互技术等。尽管这些成熟的应用在医学诊断、临床决策和管理中起到了重要作用,但医学和人工智能领域的合作面临着一个迫切的挑战:如何验证决策的可靠性?这一问题的根源在于医学场景中对问责制和结果透明度的需求与人工智能的“黑箱”模型特性之间的冲突。本文综述了近期基于可解释人工智能(XAI)的研究,重点关注视觉、音频及多模态视角下的医学实践。我们旨在对这些实践进行分类和综合,旨在为未来的研究人员和医疗专业人士提供支持和指导。
1 引言
随着许多技术瓶颈的突破,人工智能(AI)已经催生了多个重要分支,包括深度学习(DL)、计算机视觉(CV)、自然语言处理(NLP)和大语言模型(LLMs)[203]。这些子领域相互联系,共同推动了人工智能的全面发展。随着技术的不断进步,人工智能已经逐步渗透到教育、交通和医疗等多个领域[123]。 近年来,基于人工智能的医疗领域迅速扩展,催生了许多针对不同临床学科的新技术。深度学习的兴起标志着数字技术范式的重大变化,显著提升了医疗模型预测的精准度[120]。例如,基于卷积神经网络(CNNs)的医学影像模型在肿瘤识别、器官分割和异常检测等任务中展现了卓越的准确性[199, 201]。另一方面,递归神经网络(RNNs)显著提高了语音识别的准确性,替代了传统的GMM-HMM模型。RNN在音频数据上的卓越表现得到了验证[209]。因此,这些方法被广泛应用于声学病理检测系统和远程医疗中[63, 137]。此外,基于注意力机制的Transformer架构在研究界得到广泛应用[186, 189]。例如,它被用来处理多模态医学数据,将影像数据与其他医疗数据(如音频或生理参数)结合,以获得更全面的健康视图[2, 178]。 然而,病例的复杂性和数据的庞大规模使得医疗领域充满了巨大的挑战。根据国际数据公司(IDC)的预测,全球数据量预计将从2018年的33泽字节增长到2025年的175泽字节,其中医疗数据预计将以最快的速度增长,这是由于医疗分析技术的进步和医学影像频率及分辨率的提升[150]。这些庞大的数据集不仅包含个体信息、生理参数和为患者量身定制的治疗数据,还包括疾病特征、财务考虑和文化差异等[83, 195]。此外,突发流行病的发生,尤其是2019年底爆发的COVID-19大流行,显著加重了医疗系统的压力。截至2024年1月28日,全球政府机构已确认报告了774,469,939例COVID-19病例[113],且因该病及其并发症导致的死亡人数不可估量。这场灾难暴露了医疗系统中医务人员短缺、医疗决策效率低下和医疗设施不足等问题[124]。因此,在如此复杂和不断变化的环境中找到有效解决方案,成为医疗领域亟待解决的问题。 研究人员通常需要对复杂且往往不透明的机器学习(ML)算法进行大量训练,经过成千上万次迭代才能取得令人满意的结果[40]。这些复杂的人工智能模型已被证明能够有效推动创新和提高模型的准确性[70, 138]。然而,随之而来的新问题是如何阐明人工智能模型的决策过程:人工智能模型的不透明性使得人们无法理解或解释其决策过程[69]。这一问题的根本原因在于,许多复杂的机器学习模型,特别是深度学习模型,涉及数百万个参数和层次结构,导致决策过程错综复杂,难以解释[159]。然而,在医疗领域,医疗决策的透明性和可解释性恰恰是医生和患者最需要的[37, 70]。 目前,已经有多种可解释人工智能(XAI)技术在医疗行业中得到了应用和扩展[107, 152, 211]。本文将介绍在医学视觉、音频和多模态解决方案中近期的可解释性研究成果。这些成就包括成熟的XAI模型的演变以及提高可解释性的创新努力。 许多显著的综述探讨了XAI与医疗领域的交集。Loh等人[103]回顾了2011年至2022年间XAI在医疗中的应用,重点介绍了各种医疗环境下不同的XAI技术。然而,他们的综述涵盖的时间跨度较长,许多他们讨论的传统人工智能方法如今已经不再使用。此外,他们没有深入探讨与低维生物信号相关的XAI应用。Band等人[20]考察了XAI在医疗中的应用,提出了一些常见的XAI方法,并探讨了这些方法如何应用于解释特定疾病。他们还对实施方法进行了简要评估。然而,文章缺乏对XAI分类框架的深入讨论,也没有分析更广泛的医疗XAI研究。Singh等人[173]的综述专注于可解释的深度学习模型在医学影像分析中的应用。他们的综述主要集中在医学影像领域,而没有考虑其他数据模态。类似地,Chaddad等人[28]回顾了XAI在医疗中的应用,分类并总结了医学影像中的XAI类型和算法。然而,他们仅涵盖了有限的XAI技术,且未探讨这些技术在更广泛临床应用中的表现。 与此不同,我们的综述做出了不同的贡献,提供了更全面和新颖的视角。我们首先探讨了医疗领域中的具体可解释性需求,突出了患者和临床医生对于可解释性的共同需求。然后,我们介绍了XAI的定义、相关术语及分类标准。值得注意的是,我们在医疗层面上对可解释性需求进行了分类,澄清了相关术语,并解释了它们之间的关系。在分类标准方面,我们结合了[183]、[70]、[34]和[106]提出的框架,基于四个标准对19种在医疗中常用且具有前景的XAI技术进行了分类。此外,我们分析了过去五年内发表的100多篇聚焦于XAI在不同模态(视觉、音频和多模态)应用的论文,批判性地评估了这些研究,识别了当前的挑战,并提供了未来研究方向和XAI应用发展的展望。 基于这些贡献,本文的组织框架如下:第二节阐明了在医疗领域中解释的重要性以及XAI在医疗领域的独特背景。第三节介绍了XAI的定义、相关术语、分类标准和详细技术。第四节分别探讨了视觉、音频和多模态解决方案中医学应用中可解释性的最新进展。通过呈现和深入分析这些应用,第五节和第六节讨论了XAI在医学应用中的挑战与展望。最后,第七节对本文进行全面总结。