人工智能(AI)技术近年发展迅猛,其中大型语言模型(LLM)成为关键突破口。LLM 正在各行各业产生深远影响,而医学领域尤为突出。本文系统梳理了医学领域 LLM 的最新研究进展,深入分析了医学大模型的训练技术、其在医疗场景中的适配与落地、相关应用,以及由此显现的优势与局限。 此外,本文基于训练方法对医学 LLM 创新性地划分为三种类型,并将其评估范式归纳为两大类。最后,围绕当前医学 LLM 领域面临的关键问题,提出相应解决思路并展望未来研究方向。通过对既有与前沿研究成果的系统回顾,我们旨在强调发展医学 LLM 的必要性,深化对其当前发展状态的理解,并为后续研究提供明确指引。
人工智能(AI)技术的快速演进与大型语言模型(LLM)[1](如前沿的生成式预训练变换模型(GPT)[2] 系列)的突破,正以前所未有的深度与广度重塑医疗行业。凭借在文本生成、深层理解与复杂推理方面的卓越性能,这些模型正推动医疗走向更高效、更智能的形态(模型即服务,Model-as-a-Service,MaaS [3])。在医疗领域,信息的获取与处理尤为关键:处理海量医疗信息不仅是支撑临床医务人员进行日常诊疗决策的基础,也是患者获取健康指导与研究者探索疾病机理的必要条件。此类诊疗信息跨越多维度,涵盖详尽的病例数据、丰厚的医学知识库、权威治疗方案、药物研发最新进展、疾病预防策略[4],以及健康促进研究成果。信息处理能力直接影响患者诊断与治疗效果以及医疗服务总体质量,是推动医学进步不可或缺的支柱。然而在实践中,面对浩繁的医学文献[5]与复杂的诊疗记录,传统方案往往难以应对。
这些能力也不可避免地引出一个问题:LLM 是否会很快取代医生?为此,我们咨询了 ChatGPT。其回答是:尽管 LLM 在医学领域取得了历史性进展,但在演进过程中仍面临三大挑战。其一,AI 技术仍不成熟。尽管 LLM 具备诸多突出特性,AI 仍在持续发展中,尚不足以在运用专业知识与技能以解决患者问题方面完全取代医生。其二,数据偏置问题:训练数据的质量与准确性决定 LLM 的性能,若训练数据存在偏差,模型能力亦将受到影响。其三,隐私与安全问题:医疗数据属于患者隐私,一旦泄露或被滥用,后果不堪设想。因此,在 LLM 的应用中必须优先考虑隐私与安全。
生成式 LLM 指能自动生成自然语言文本的深度学习模型[6]。它们以大规模文本数据进行训练,通过对语言内部规律的深度理解,自动生成符合语法与语义规则的自然语言文本。这类模型不仅能生成连贯、合逻辑的内容,还展现出强大的创造力与泛化能力,可在不同领域与任务中保持优异表现。与此同时,也存在一类判别式 LLM[7],其旨在区分不同类别或识别数据中的模式,常用于分类、回归与检测等任务,学习如何根据输入数据区分不同的输出或结果。二者差异见表 1。考虑到医学领域的具体情境,多数医学 LLM 为生成式,故下文中“LLM”与“生成式 LLM”可互换使用。LLM 的技术原理主要基于深度学习与自然语言处理(NLP)。通过对海量数据的收集与训练,LLM 能够深入学习并掌握语言的内部结构与普遍模式。模型通常采用端到端训练范式,建立输入文本与输出文本之间的映射关系。以 Transformer 模型[8] 为代表的关键技术采用自注意力框架,使序列内各元素之间实现复杂交互,有效缓解长文本生成中的信息丢失与梯度消失问题,显著提升模型性能。此外,LLM 将语言建模与生成算法相结合:前者估计语言中句子的概率,后者基于该概率分布生成具体文本;二者共同构成生成式 LLM 的核心技术框架。
在节奏快速的医疗领域,LLM 为临床实践、医学教育与科研带来变革性潜力[9]。医学领域对 LLM 的早期使用主要基于通用预训练语言模型进行领域自适应;随着技术持续演进,LLM 发展为诸如 GPT-4[10] 等前沿模型。这些模型突破了传统方法的限制,能够处理更复杂的语言理解与处理任务。通过分析医学数据并为医生与其他卫生专业人员制定更精准的诊断与个性化治疗方案,LLM 有望重塑医疗行业[11]。该技术不仅为临床与公共卫生工作者提供前所未有的强大工具,也深刻改写了我们对疾病诊断与治疗路径的理解与实践。借助先进的深度学习架构与经精调的机器学习模型,对海量医学数据进行深度挖掘与分析,LLM 能够模拟并生成与原始信息高度相似、甚至更为准确的新内容,从而确保有效的知识传递与创新。 具体而言,LLM 在医疗行业的潜在变革性影响主要体现在三方面:其一,为医学数据评估提供新维度,使以往难以捕捉的细微变化与趋势显性化,为疾病的早期发现与干预提供有力支持;其二,在诊断层面,AI 算法可基于复杂数据分析给出更为准确的诊断意见——有时甚至超过人类经验——显著提升诊断准确率与效率[12];其三,在治疗方案制定方面,LLM 可依据个体特征、疾病进程与治疗反应,帮助确保每位患者获得个性化治疗,真正实现精准医学的愿景[13]。这些以数据为驱动并经多轮训练迭代的医学 LLM,不仅具备强大的诊断判断力,也能在罕见病例诊断与治疗策略制定中快速响应临床需求;它们通过检索相关医学文献、病例分析与专家建议为医生提供有价值的参考[14, 15]。与此同时,医学 LLM 在口腔医学[16]、放射学[17]、核医学[18]与临床实践[19]等众多领域展现出潜在能力。目前,关于医学 LLM 的研究如火如荼,相关论文的发表与引用呈上升趋势(见图 1),应用前景广阔。
因此,系统探索 LLM 在医学领域的实际应用、优势、不足与潜在发展路径至关重要。本次最新综述旨在梳理大规模语言模型在医学领域的广泛应用场景,深入探讨其带来的诸多益处与当前主要挑战,并展望其新兴发展趋势。通过系统回顾既有研究成果,我们希望阐明发展医学 LLM 的必要性,深刻把握医学 LLM 的当前发展状态,并为后续研究提供方向性建议。为明确本文贡献并支持进一步研究,我们与同类综述进行了对比分析(见表 2),以凸显本工作的独特视角与贡献。具体贡献概括如下: * 全面覆盖:系统、最新且最为全面地回顾医学 LLM,从理论基础与方法进展到其多元医疗应用进行深入剖析。 * 阶段化综述:回顾 LLM 的发展历程,突出其各阶段的特征、成果与局限。 * 创新分类:基于训练方法将医学 LLM 创新性地划分为三大类型,并将其评估方法归纳为机器评估与以人为中心的评估两类,为医学 LLM 的研究与分类提供新视角。 * 趋势分析与策略建议:深入分析医学 LLM 领域的当前趋势,包括技术进展与既有挑战,并提出针对性的机遇识别与未来发展策略,期望为相关领域研究者与实践者提供有效指导。
文献回顾方法学:为确保对医学领域 LLM 的全面、专业考察,我们采用系统综述的方法。具体而言,在 Web of Science、DBLP、IEEE Xplore 与 Google Scholar 等主要学术数据库中,以“LLM medicine”“medical LLM”为核心关键词进行检索。在优先考虑 2020–2025 年间的出版物的同时,也纳入了 2020 年以前对该领域有重要推动作用的奠基性研究。首先基于题目与摘要对检索文献进行相关性筛选;在初筛之后,依照预设步骤进一步遴选,确保入选研究兼具相关性与高质量。(1)纳入标准:提出创新方法论、理论分析或对其观点进行实验验证的综述;考察一个或多个医学 LLM 从训练到部署过程的文献;经过正式同行评审的英文出版物。(2)排除标准:仅汇编他人成果而缺乏原创见解的文章;未经过正式同行评审的出版物;虽匹配关键词但与医学领域 LLM 直接相关性较低的研究。
如图 2 所示,本综述拟回答以下问题:第 2 节——LLM 如何发展?医学 LLM 如何训练?第 3 节——现代医学的局限何在?医学 LLM 能提供哪些超越现代医学的能力?第 4 节——当前医学 LLM 如何评估?第 5 节——应用医学 LLM 的优势与不足是什么?第 6 节——医学 LLM 的未来发展方向为何?第 7 节给出结论。![]