大型语言模型(LLMs),如ChatGPT,由于其令人印象深刻的人类语言理解和生成能力,获得了极大的关注。因此,将LLMs应用于医学,以协助医生和病人护理,成为人工智能和临床医学领域的一个有前景的研究方向。为此,本综述提供了医学中LLMs当前进展、应用和面临挑战的全面概述。具体来说,我们旨在回答以下问题:1)什么是LLMs,如何构建医学LLMs?2)医学LLMs的下游表现如何?3)如何在实际临床实践中使用医学LLMs?4)使用医学LLMs会带来哪些挑战?5)我们如何更好地构建和利用医学LLMs?因此,本综述旨在提供医学中LLMs的机遇和挑战的洞见,并作为构建实用有效的医学LLMs的宝贵资源。医学LLMs的实用指南资源的定期更新列表可在 https://github.com/AI-in-Health/MedLLMsPracticalGuide 找到。
1 引言
在过去的几年中,广泛的通用大型语言模型(LLMs)[1, 2],如 PaLM [3]、LLaMA [4, 5]、GPT系列 [6, 7, 8] 和 ChatGLM [9, 10] 已经出现并推动了各种自然语言处理(NLP)任务的最新发展,包括文本生成、文本摘要和问答。受到通用LLMs巨大成功的启发,医学LLMs的开发和应用已获得日益增长的研究兴趣,因为它们旨在协助医疗专业人员并改善病人护理[11, 12, 13]。为此,已经做出了几项努力,将通用LLMs适应到医学领域,从而引发了医学LLMs的出现[14, 15, 16, 17, 18, 19, 20]。例如,基于PaLM [3],MedPaLM [14] 和 MedPaLM2 [15] 在美国医学执照考试(USMLE)[22]中取得了与人类专家(87.0 [21])相媲美的86.5的分数;基于公开可用的LLMs,例如LLaMA [4, 5],已经引入了几个医学LLMs,包括ChatDoctor [19]、MedAlpaca [16]、PMCLLaMA [21]、BenTsao [17] 和 Clinical Camel [18]。 尽管现有的医学LLMs取得了令人期待的结果,但在它们的开发和应用中仍然存在一些关键问题需要解决。首先,这些模型主要关注生物医学自然语言处理(NLP)任务,例如对话和问答,经常忽略了它们在临床实践中的实际应用[12]。最近的研究已开始探索医学LLMs在各种临床场景中的潜力,包括电子健康记录(EHRs)[23, 24]、出院摘要生成[13]、健康教育[25]和护理规划[26]。此外,大多数现有的医学LLMs主要在医学问答和对话生成任务上评估它们的性能,忽略了其他生物医学任务,如文本摘要、关系提取和信息检索。这些挑战在医学中LLMs的当前研究和应用中造成了一个缺口,这促使本综述提供医学中LLM开发和应用的全面回顾。本综述旨在涵盖各种主题,包括现有的医学LLMs、各种生物医学任务、临床应用以及相关挑战。
为了实现这一目标,本综述试图回答以下问题: 1.(第2节)如何有效地构建医学LLMs? 2.(第??节)当前的医学LLMs是如何评估的?医学LLMs除了传统NLP外还有哪些能力? 3.(第3节)医学LLMs如何应用于临床设置? 4.(第4节)在临床实践中实施医学LLMs时必须解决哪些挑战? 5.(第5节)我们如何优化医学LLMs的构建,以增强它们在临床设置中的适用性,最终为医学和社会产生积极影响?
对于第一个问题,我们总结了现有的医学LLMs,详细介绍了它们的基本结构、参数数量和用于模型开发的数据集。此外,我们提供了这些模型构建过程的洞见。这些信息对于希望根据特定需求(如计算限制、私有数据和本地知识库)构建自己的医学LLMs的研究人员和医学从业者来说是宝贵的。对于第二个问题,我们对现有医学LLMs在十个生物医学NLP任务中的表现进行了广泛的调查。这种分析将使我们能够理解医学LLMs在不同方面如何胜过传统的医学AI模型。通过展示它们的能力,我们旨在阐明医学LLMs在临床环境中部署时带来的优势。第三个问题关注医学LLMs在临床环境中的实际应用。我们提供了七种临床应用场景的指南和洞见,提供了医学LLMs的具体实现,并突出了每种场景使用了哪些能力。第四个问题强调在临床实践中部署医学LLMs时必须克服的挑战。这些挑战包括幻觉(即生成连贯且与上下文相关但事实上不正确的输出)[27, 28, 29]、可解释性[30]、伦理、法律和安全问题[31]等。我们还提倡对医学LLMs进行更广泛的评估,包括诸如可信度[32]等方面,以确保它们在临床环境中的负责任和有效使用。对于最后一个问题,我们提供了发展医学LLMs的未来方向的洞见。这一部分作为指南,旨在帮助研究人员和从业者推进这一领域,并最大化医学LLMs在医学中的潜力。
总之,本综述做出了几个贡献:
我们提供了医学中大型语言模型的全面综述,分类现有的通用LLMs和医学LLMs,并总结了它们在十个生物医学任务中的评估。
我们强调了医学LLMs的临床应用,并为它们在各种临床环境中的部署提供了实用指南。
我们识别并讨论了在临床实践中应用医学LLMs的挑战,旨在激发在这一领域的进一步研究和发展。 通过回答这些问题并提供关于医学LLMs的全面视角,我们希望促进对医学AI领域的更深入理解、合作和进步。
本文的整体结构如下:第2节回顾了关于LLMs和医学LLMs的现有研究,强调如何有效地构建医学LLMs;第??节总结了现有医学LLMs在十个生物医学AI任务上的表现;第3节详细介绍了医学LLMs在医学中的应用;第4节深入探讨了现有医学LLMs的挑战;第5节介绍了在发展和部署方面改进医学LLMs的几个潜在机会。最后,本文的结论在第6节给出。
本节讨论LLMs的临床应用。在每个小节中,我们首先介绍应用,然后讨论LLMs如何执行这项任务。最后,我们讨论LLMs在这个特定用例中的挑战和未来方向。