在过去的十年里,深度学习,特别是大语言模型(LLMs)的变革性崛起,激发了各个领域的专家深入思考人工智能(AI)如何革新他们的领域。在这段时间里,通用基础模型而非狭窄且高度专业化的任务特定系统,开始成为主流范式。在医疗健康领域,AI系统已经在多种实际应用场景中得到了广泛实施,尽管这些系统可能没有经过充分的评估和验证。事实上,它们在处理自然语言方面的卓越能力——自然语言在医学中是知识和沟通的关键媒介——表明这些现代基础模型在医疗领域中可能具有巨大的潜力。然而,仍然需要更好地研究和理解它们的优点、局限性和鲁棒性,特别是在更现实和临床相关的环境中。本文聚焦于两类关键的自然语言驱动的基础模型——对比语言图像预训练(CLIP)模型和大语言模型(LLMs)——并探讨这些模型如何编码和传递有用的临床知识,用于如胸部X光解读、鉴别诊断、病史采集和临床管理等任务。总体而言,本文旨在进一步增进我们对自然语言基础模型在医学中的潜力的集体理解,同时强调需要进行大量的进一步研究,以应对现实世界的挑战,并理解这些系统可以安全有效地实施的范围。
在第一章中,我提供了一些相关背景的概述,包括对比语言-图像预训练模型、大语言模型及其在医学领域的评估。在第二章中,我们通过在预训练过程中应用一种新颖的正则化技术,改进了CLIP架构,以用于胸部X光解读,并使用该模型进行胸部X光发现的零样本识别。在第三章中,我们考察了CLIP风格模型的可靠性。首先,我们评估了它们对捷径学习的鲁棒性,以理解文本自监督可能带来的保护效果。接着,我们探索了如何利用共形预测来控制零样本分类性能,并为这些CLIP风格模型预见兼容输入。在第四章中,我描述了Articulate Medical Intelligence Explorer(AMIE)的开发,这是一个经过模拟医学对话微调的对话诊断AI。我们在两项随机研究中评估了AMIE的诊断能力;首先是在具有挑战性的临床病理会议(CPC)案例中,其次是在虚拟文本基础的客观结构化临床考试(OSCE)中。在第五章中,我们探讨了AMIE在两个子专业领域的管理推理能力:遗传性心血管疾病和乳腺肿瘤学。在这些研究中,我们设计了特定领域的案例管理评估,并将AMIE的表现与在子专业评估下的全科医生进行比较,同时研究其潜在的辅助效应。