基础模型通过在广泛数据上预训练并能够适应多种任务,正在推动医疗保健领域的发展。它促进了医疗人工智能(AI)模型的发展,打破了有限AI模型与多样化医疗实践之间的矛盾。更广泛的医疗场景将从医疗基础模型(HFM)的发展中受益,提高其高级智能医疗服务。尽管HFM的广泛部署即将到来,但目前对它们在医疗领域的工作方式、当前挑战以及未来发展方向的理解还不清晰。为了回答这些问题,本综述提供了对HFM挑战、机遇和未来发展方向的全面而深入的考察。它首先进行了包括方法、数据和应用在内的HFM全面概述,以快速掌握当前进展。然后,它对构建和广泛应用医疗基础模型的数据、算法和计算基础设施中存在的挑战进行了深入探索。本综述还识别了该领域中未来发展的新兴和有前景的方向。我们相信,这份综述将增强社区对HFM当前进展的理解,并为该领域未来的发展提供宝贵的指导。最新的HFM论文和相关资源将在我们的网站上维护。 在过去的十年里,随着人工智能(AI)[1]特别是深度学习(DL)[2]的发展,医疗技术经历了革命性的进步[3]-[5]。通过学习医疗数据,AI模型能够解锁数据内部的相关信息,从而协助医疗实践。在一些影响力大的临床疾病中,包括胰腺癌[6]、视网膜疾病[7]和皮肤癌[8]等,AI模型已经获得了专家级的表现,显示出光明的未来。然而,在此之前,针对特定医疗任务的专家AI模型与多样化的医疗场景和需求之间仍存在很大的矛盾,这阻碍了它们在广泛医疗实践中的应用[5]。因此,存在一个开放性问题:“我们能否构建AI模型,以惠及各种医疗任务?”
如图1所示,最近对基础模型的研究使AI模型能够学习通用能力,并应用于广泛的医疗场景,对这一问题给出了有希望的答案[9]-[12]。在医疗AI相关的子领域中,包括语言、视觉、生物信息学和多模态,医疗基础模型(HFM)已显示出令人印象深刻的成功。a) 语言基础模型(LFM)或称为大型语言模型(LLM)[13]、[14],为患者和临床医生带来了兴奋和关注[13]。它学习了大规模的医疗语言数据,并在医学文本处理[15]和对话[16]任务中表现出非凡的性能。b) 视觉基础模型(VFM)在医学图像中展示了显著的潜力。针对特定的模式[17]、[18]、器官[19]和任务[20]、[21]的VFM显示了它们对潜在医疗场景的适应性和通用性能。c) 生物信息学基础模型(BFM)帮助研究人员解锁生命的秘密,为我们在蛋白质序列、DNA、RNA等场景提供了前景[22]-[26]。d) 多模态基础模型(MFM)[27]-[29]为通用HFM[10]、[30]、[31]提供了一种有效的方式。它整合了来自多种模态的信息,从而实现了解释各种医学模态和执行多种模态依赖任务的能力[11]、[31]、[32]。因此,这些模型为解决复杂的临床问题和提高医疗实践的效率和效果提供了基础,从而推动了医疗领域的发展[11]。
HFM的出现源于医疗数据的持续积累、AI算法的发展和计算基础设施的改进[9]、[12]。然而,数据、算法和计算基础设施的当前发展不足仍是HFM面临的各种挑战的根源。医疗数据的伦理、多样性、异质性和成本使得构建足够大的数据集以训练广泛医疗实践中的通用HFM[12]、[33]变得极为困难。AI算法在适应性、容量、可靠性和责任性的需求进一步使其难以应用于真实场景[34]、[35]。由于医疗数据的高维度和大规模(例如,3D CT图像、整张幻灯片图像(WSI)等),计算基础设施的需求远大于其他领域,无论是在消耗[10]、[12]还是环境[36]方面都极为昂贵。
总的来说,推动医疗保健的基础模型为我们展示了一个充满机会和挑战的新未来。在这篇综述中,我们从一个全面的视角提出了当前HFM面临的以下问题:1) 尽管基础模型取得了显著的成功,它们在医疗保健中的当前进展是什么?2) 随着基础模型的发展,它们面临哪些挑战?3) 对于HFM的进一步发展,哪些潜在的未来方向值得我们关注和探索?上述问题的答案将构建对HFM当前状况的概览,并为其未来的发展提供清晰的视角。由于HFM的出现,近年来已孵化出数百篇论文。因此,回顾所有这些论文和所有方面在有限的论文空间内是具有挑战性的。在本文中,我们专注于从2018年(基础模型时代的开始[9])到2024年医疗领域的语言、视觉、生物信息学和多模态基础模型的当前进展,以及HFM的挑战和未来方向。我们希望这篇综述能帮助研究人员迅速掌握HFM的发展,并激发他们的创造力,以进一步推动医疗保健的边界。 A. 医疗保健中基础模型的简史
根据Bommasani等人[9]的定义,在这篇综述中,“基础模型”是指在广泛数据上预训练并能够适应广泛任务的任何模型。基础模型时代的另一个社会学特征[9]是广泛接受将某一基础AI模型应用于大量不同任务。基础模型时代的代表性转折点是2018年底自然语言处理(NLP)中的BERT模型[37],此后,预训练模型成为NLP的基础,然后扩散到其他领域。 在医疗保健领域的AI也在由特定目标逐渐转向一般目标[10],这是由基础模型的发展所驱动的。在BERT[37]之后的2019年初,BioBERT[38]公开发布,实现了医疗保健中的LFM。到2022年底,ChatGPT[39]凭借其强大的多功能性,使更多与医疗相关的从业者受益于基础模型,从而吸引了他们的注意并进一步激发了HFM研究的热潮。仅在2023年8月,就发布了200多项与ChatGPT相关的医疗研究[12]。对于VFMs,众多初步工作[40]、[41]专注于独立的预训练或迁移学习。由于SAM[20]的广泛影响,通用视觉模型[42]–[44]在医疗保健中引发了研究热潮。在生物信息学方面,AlphaFold2[25]在2020年蛋白质结构预测的CASP14中获得第一名,激发了对BFMs的兴趣,并推动了RNA[45]、DNA[46]、蛋白质[25]等的研究。2021年初,OpenAI构建了CLIP[47],实现了视觉和语言的大规模学习,取得了显著的表现。由于医疗数据的天然多模态属性,这项技术迅速应用于医疗保健[48],并整合了来自图像、组学、文本等的多模态数据。到2024年2月为止,所回顾的四个子领域中HFM的代表性论文数量呈指数增长(图2),除了上述典型技术和事件外,一些新兴的范式和技术在HFM中也在迅速发展。
B. 相关综述比较及我们的贡献
在我们广泛的搜索中,我们发现了17项与医疗基础模型相关的代表性综述,应注意现有综述在HFMs不同方面提供了有见地的想法[10]–[14]、[32]、[48]–[58]。与这些作品相比,本综述进行了更全面的HFM概述和分析,包括方法、数据和应用,并对挑战和未来方向进行了深入的讨论和展望。具体来说,它具有以下独特优势:1) 系统的HFM子领域分类和研究。本综述涵盖了与HFM相关的四个子领域,包括语言、视觉、生物信息学和多模态。与现有的综述[11]、[13]、[14]、[32]、[48]、[49]、[51]–[54]相比,它提供了对整个HFM领域更全面的视角。2) 对HFM方法的深入分析。本综述深入分析了从预训练到适应不同子领域的方法,贯穿了在医疗保健中构建通用AI模型的过程。与现有的综述[32]、[48]、[49]、[55]、[58]相比,它提供了HFM方法的系统总结。3) 对不同属性HFMs的广泛回顾。本综述介绍了整个过程的技术和HFMs,并不局限于某些特殊属性,如“大”[12]。与现有的综述[12]、[56]相比,它提供了具有不同属性HFMs的广泛视角。4) 对HFM不同关注点的全面和更深入的探索。本综述探讨了包括方法、数据、应用、挑战和未来方向在内的全面内容。与现有的综述[10]、[56]、[57]相比,它为HFM提供了一个完整的视角,使读者能够获得更深入的理解。
本综述提供了对医疗基础模型的洞察,我们的贡献如下列出: 1. 方法的系统回顾(第二节):从2018年到2024年(1月-2月)涉及HFMs的200篇技术论文被纳入本综述。我们为这些论文提出了一个新的分类,并在语言、视觉、生物信息学和多模态子领域的预训练和适应方面进行了回顾。它为医疗基础模型的潜在技术创新提供了洞察。 1. 数据集的全面调查(第三节):我们调查了HFM培训可能使用的四个子领域中的114个大规模数据集/数据库。它识别了医疗数据集当前的限制,并为HFM研究人员提供了数据资源指导。 1. 应用的全面概述(第四节):我们概述了当前HFM作品中的16个潜在医疗应用。它展示了HFM技术在医疗实践中的当前发展,为未来在更多场景中的应用提供了参考。 1. 关键挑战的深入讨论(第五节):我们讨论了与数据、算法和计算基础设施相关的关键挑战。它指出了HFM当前的不足,为研究人员提供了新的机会。 1. 对新兴未来方向的远见探索(第六节):我们期待HFM在其角色、实施、应用和重点方面的未来方向。它显示了医疗AI从传统范式到基础模型时代的转变,突出了在推动该领域发展方面具有前景的未来观点。