**大型语言模型(LLMs)在包括医学在内的各个领域的自然语言理解和生成方面表现出了卓越的能力。我们对GPT-4(一种最先进的LLM)的医疗能力检查和基准数据集进行了全面评估。GPT-4是一个通用模型,它不是通过训练专门用于医疗问题,**也不是设计来解决临床任务的。我们的分析涵盖了美国医学执照考试(USMLE)的两套官方实践材料,这是一个在美国用于评估临床能力和授予执照的三步考试计划。还在MultiMedQA基准数据集上评估了性能。除了测量模型性能外,还进行了实验,以调查包含文本和图像的试题对模型性能的影响,探索训练过程中对内容的记忆,并研究概率的校准,这在医学等高风险应用中至关重要。结果表明,在没有任何专门提示的情况下,GPT-4比USMLE的及格分数高出20分以上,并优于早期的通用模型(GPT-3.5)以及专门针对医学知识进行微调的模型(Med-PaLM,一种快速调整的Flan-PaLM 540B版本)。此外,GPT-4的校准效果明显优于GPT-3.5,在预测其答案正确的可能性方面有了很大的提高。还通过一个案例研究定性地探索了该模型的行为,该案例研究显示了GPT-4解释医学推理、向学生个性化解释的能力,并围绕医学案例交互式地打造新的反事实场景。讨论了研究结果对GPT-4在医学教育、评估和临床实践中的潜在用途的影响,并适当注意准确性和安全性的挑战。 **大型语言模型(LLMs)在解释和生成跨越广泛领域(如自然语言、计算机代码和蛋白质序列)的序列方面表现出了卓越的能力。**许多强大的模型都基于transformer架构[VSP+17],适应于语言并以自监督的方式进行训练[RNS+18, DCLT18]。随着规模的扩大,各种基准的分数通常都有所提高,包括模型大小、数据集大小和训练计算量的增加[KMH+20, LBL+22]。经验发现与理论分析[BS21]产生了共鸣,这表明从大型神经模型进行推断的鲁棒性需要规模[BS21]。在过去的几年中,在大规模跨学科语料库上训练的LLM已经成为创建以任务为中心的系统的强有力的基石[BHA+21]。针对特定领域细化模型的方法包括使用从目标应用中提取的专门数据集进行微调,以及用于指导模型行为的一般方法,如人工反馈强化学习(RLHF),它可以指导系统更好地理解最终用户的请求[BJN+22]。
**人们对LLMs在没有专门微调的情况下为广泛的专门任务做出有用推断的能力也有很大的兴趣。**使用少量甚至零样本提示的通用LLM的性能突出了它们在协助跨问题类型、专业领域和学科的任务方面的潜力[BMR+20]。最近,研究人员调查了基准,这些基准提供了对LLM如何编码临床知识的见解,并可能被利用来增强医学实践。本文比较了最近发布的(纯文本)GPT-4模型与其GPT家族中的前身在医疗挑战问题上的性能。虽然GPT-4的规模度量细节,包括模型参数的数量和训练数据的大小和范围尚未公开,但据报道,这两个维度都明显大于ChatGPT背后的GPT-3.5模型[Ope23]。探索LLM在医疗问题解决方面的能力是一个长期的医学人工智能研究项目的一部分,可以追溯到Ledley和Lusted的经典工作[LL59]。几十年来,对辅助医生的计算方法的探索一直以对不同表示和推理方法的转变为标志,包括核心概率和决策理论方法(如[GB68, HHN92]),基于规则的产生式系统(如[Sho77, BS84]),语义图(如[PSS81]),从医疗信息数据库(如[WGH16, HHPS15, ELS+20, CLG+15])和深度神经网络模型(如[EKN+17,Shj +17, riz +17, msg +20]。虽然在诊断计算机视觉领域开始了使用深度学习来实现人类在医疗任务上水平表现的一系列努力,但自那以来,它已经发展到包括通过自然语言介导的更一般临床推理的基准。在此背景下部署的模型可以在特定的医学语料库上进行训练,或在大量通用语言和/或视觉信息上进行训练的基础模型,然后通过专门的微调使其适应于医学数据。 **本文的主要贡献是研究了GPT-4在医疗挑战性问题上的能力。为了建立强大的比较基线,本文评估了GPT-4和GPT-3.5,并报告了来自Flan-PaLM 540B的结果。**我们的目标是为GPT-4建立“开箱即用”的性能数据。使用了尽可能简单的提示(零样本和随机选择的5样本提示,并直接推断答案),发现GPT-4获得了同类中最好的性能,而不需要精心设计的提示技术或特定领域的微调。我们首先询问了模型在挑战性问题上的表现,这些问题是为评估医学生和住院医生的能力而开发的。
本探索包括对GPT-4在美国医学执照考试(USMLE)第1-3步中的表现进行综合评估。该考试是美国医疗执照官方认证协议的一部分。我们的结果是基于样本考试和由美国国家医学检验师委员会(NBME)正式发布的自我评估材料。结果表明,零样本GPT-4显著优于早期模型,在USMLE测试的自我评估和样本测试中分别取得了86.65%和86.7%的平均分数,而GPT-3.5的平均分数为53.61%和58.78%。在回顾了USMLE研究的结果后,我们检查了其他几个医疗基准。Zero shot GPT-4在MultiMedQA[SAT+22]上的表现明显优于GPT-3.5和最近引入的Flan-PaLM 540B模型,MultiMedQA是医学机器学习文献中常用的一套基准数据集。除了描述整体表现外,我们的调查还涵盖了医学领域LLM行为的其他几个方面。研究了纯文本GPT-4在以文本为中心的考题和依赖图像的考题中的表现。鉴于关于正确概率的可靠信息在医疗保健和其他高风险应用中至关重要,评估了隐式分配给答案的概率的校准。我们评估了该模型通过其训练数据接触(和记忆)考试内容的证据。通过一个案例研究进一步探索了该模型的定性行为,证明了GPT-4解释医学推理的能力,并交互式地支持学生围绕一个医疗案例的反事实场景。最后,研究了研究结果的影响,包括GPT-4及其继任者帮助医学教育和为医疗专业人员提供帮助的潜力,同时考虑到与准确性、公平性和对医学实践的更广泛影响相关的担忧。特别反思了基于基准的性能评估的局限性,并讨论了在现实世界环境中使用GPT-4等模型所需的预防措施和进展。要全面评估这些系统,还有大量工作要做,而且需要非常谨慎。然而,我们期望在现实世界中有多种使用,例如低风险的应用程序,其中包括专家监督作为世代和工作流程的一部分。从长期来看,我们看到GPT-4及其扩展体在医学方面有巨大的潜力。