医学中大型语言模型综述：进展、应用与挑战 - 专知VIP

会员服务 ·

35

AI与医学 · 大型语言模型 ·

2023 年 11 月 11 日

医学中大型语言模型综述：进展、应用与挑战

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

大型语言模型（LLMs），如ChatGPT，由于其令人印象深刻的人类语言理解和生成能力，获得了极大的关注。因此，将LLMs应用于医学，以协助医生和病人护理，成为人工智能和临床医学领域的一个有前景的研究方向。为此，本综述提供了医学中LLMs当前进展、应用和面临挑战的全面概述。具体来说，我们旨在回答以下问题：1）什么是LLMs，如何构建医学LLMs？2）医学LLMs的下游表现如何？3）如何在实际临床实践中使用医学LLMs？4）使用医学LLMs会带来哪些挑战？5）我们如何更好地构建和利用医学LLMs？因此，本综述旨在提供医学中LLMs的机遇和挑战的洞见，并作为构建实用有效的医学LLMs的宝贵资源。医学LLMs的实用指南资源的定期更新列表可在 https://github.com/AI-in-Health/MedLLMsPracticalGuide 找到。

1 引言

在过去的几年中，广泛的通用大型语言模型（LLMs）[1, 2]，如 PaLM [3]、LLaMA [4, 5]、GPT系列 [6, 7, 8] 和 ChatGLM [9, 10] 已经出现并推动了各种自然语言处理（NLP）任务的最新发展，包括文本生成、文本摘要和问答。受到通用LLMs巨大成功的启发，医学LLMs的开发和应用已获得日益增长的研究兴趣，因为它们旨在协助医疗专业人员并改善病人护理[11, 12, 13]。为此，已经做出了几项努力，将通用LLMs适应到医学领域，从而引发了医学LLMs的出现[14, 15, 16, 17, 18, 19, 20]。例如，基于PaLM [3]，MedPaLM [14] 和 MedPaLM2 [15] 在美国医学执照考试（USMLE）[22]中取得了与人类专家（87.0 [21]）相媲美的86.5的分数；基于公开可用的LLMs，例如LLaMA [4, 5]，已经引入了几个医学LLMs，包括ChatDoctor [19]、MedAlpaca [16]、PMCLLaMA [21]、BenTsao [17] 和 Clinical Camel [18]。尽管现有的医学LLMs取得了令人期待的结果，但在它们的开发和应用中仍然存在一些关键问题需要解决。首先，这些模型主要关注生物医学自然语言处理（NLP）任务，例如对话和问答，经常忽略了它们在临床实践中的实际应用[12]。最近的研究已开始探索医学LLMs在各种临床场景中的潜力，包括电子健康记录（EHRs）[23, 24]、出院摘要生成[13]、健康教育[25]和护理规划[26]。此外，大多数现有的医学LLMs主要在医学问答和对话生成任务上评估它们的性能，忽略了其他生物医学任务，如文本摘要、关系提取和信息检索。这些挑战在医学中LLMs的当前研究和应用中造成了一个缺口，这促使本综述提供医学中LLM开发和应用的全面回顾。本综述旨在涵盖各种主题，包括现有的医学LLMs、各种生物医学任务、临床应用以及相关挑战。

为了实现这一目标，本综述试图回答以下问题： 1.（第2节）如何有效地构建医学LLMs？ 2.（第??节）当前的医学LLMs是如何评估的？医学LLMs除了传统NLP外还有哪些能力？ 3.（第3节）医学LLMs如何应用于临床设置？ 4.（第4节）在临床实践中实施医学LLMs时必须解决哪些挑战？ 5.（第5节）我们如何优化医学LLMs的构建，以增强它们在临床设置中的适用性，最终为医学和社会产生积极影响？

对于第一个问题，我们总结了现有的医学LLMs，详细介绍了它们的基本结构、参数数量和用于模型开发的数据集。此外，我们提供了这些模型构建过程的洞见。这些信息对于希望根据特定需求（如计算限制、私有数据和本地知识库）构建自己的医学LLMs的研究人员和医学从业者来说是宝贵的。对于第二个问题，我们对现有医学LLMs在十个生物医学NLP任务中的表现进行了广泛的调查。这种分析将使我们能够理解医学LLMs在不同方面如何胜过传统的医学AI模型。通过展示它们的能力，我们旨在阐明医学LLMs在临床环境中部署时带来的优势。第三个问题关注医学LLMs在临床环境中的实际应用。我们提供了七种临床应用场景的指南和洞见，提供了医学LLMs的具体实现，并突出了每种场景使用了哪些能力。第四个问题强调在临床实践中部署医学LLMs时必须克服的挑战。这些挑战包括幻觉（即生成连贯且与上下文相关但事实上不正确的输出）[27, 28, 29]、可解释性[30]、伦理、法律和安全问题[31]等。我们还提倡对医学LLMs进行更广泛的评估，包括诸如可信度[32]等方面，以确保它们在临床环境中的负责任和有效使用。对于最后一个问题，我们提供了发展医学LLMs的未来方向的洞见。这一部分作为指南，旨在帮助研究人员和从业者推进这一领域，并最大化医学LLMs在医学中的潜力。

总之，本综述做出了几个贡献：

我们提供了医学中大型语言模型的全面综述，分类现有的通用LLMs和医学LLMs，并总结了它们在十个生物医学任务中的评估。
我们强调了医学LLMs的临床应用，并为它们在各种临床环境中的部署提供了实用指南。
我们识别并讨论了在临床实践中应用医学LLMs的挑战，旨在激发在这一领域的进一步研究和发展。通过回答这些问题并提供关于医学LLMs的全面视角，我们希望促进对医学AI领域的更深入理解、合作和进步。

本文的整体结构如下：第2节回顾了关于LLMs和医学LLMs的现有研究，强调如何有效地构建医学LLMs；第??节总结了现有医学LLMs在十个生物医学AI任务上的表现；第3节详细介绍了医学LLMs在医学中的应用；第4节深入探讨了现有医学LLMs的挑战；第5节介绍了在发展和部署方面改进医学LLMs的几个潜在机会。最后，本文的结论在第6节给出。

本节讨论LLMs的临床应用。在每个小节中，我们首先介绍应用，然后讨论LLMs如何执行这项任务。最后，我们讨论LLMs在这个特定用例中的挑战和未来方向。

成为VIP会员查看完整内容

61

相关内容

AI与医学

医学领域的人工智能是使用机器学习模型搜索医疗数据，发现洞察，从而帮助改善健康状况和患者体验。得益于近年来计算机科学和信息技术的发展，人工智能 (AI) 正迅速成为现代医学中不可或缺的一部分。由人工智能支持的人工智能算法和其他应用程序正在为临床和研究领域的医学专业人员提供支持。

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

102+阅读 · 2023年8月31日

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

专知会员服务

48+阅读 · 2023年7月23日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

面向工业监控典型监督任务的深度迁移学习方法：现状、挑战与展望

面向工业监控典型监督任务的深度迁移学习方法：现状、挑战与展望

专知会员服务

38+阅读 · 2023年1月8日

【2022新书】深度学习基因组学:生命科学和生物技术中基因组学应用的数据驱动方法

【2022新书】深度学习基因组学:生命科学和生物技术中基因组学应用的数据驱动方法

专知会员服务

74+阅读 · 2022年11月22日

【2023新书】医学影像人工智能前沿，300页pdf

【2023新书】医学影像人工智能前沿，300页pdf

专知

32+阅读 · 2023年4月9日

从200多篇顶会论文看推荐系统前沿方向与最新进展

从200多篇顶会论文看推荐系统前沿方向与最新进展

专知

16+阅读 · 2021年4月3日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

大数据高效能存储与管理方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

495+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

153+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

82+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

180+阅读 · 2023年3月24日

VIP会员

相关主题

大型语言模型

相关VIP内容

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

102+阅读 · 2023年8月31日

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

专知会员服务

48+阅读 · 2023年7月23日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

面向工业监控典型监督任务的深度迁移学习方法：现状、挑战与展望

面向工业监控典型监督任务的深度迁移学习方法：现状、挑战与展望

专知会员服务

38+阅读 · 2023年1月8日

【2022新书】深度学习基因组学:生命科学和生物技术中基因组学应用的数据驱动方法

【2022新书】深度学习基因组学:生命科学和生物技术中基因组学应用的数据驱动方法

专知会员服务

74+阅读 · 2022年11月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《北约认知战概念报告》

《预测促成大规模货运无人机的技术趋势与影响》报告

美海军放弃星座级转而采用国家安全巡逻舰设计

《北约作战弹性概念》报告

相关资讯

【2023新书】医学影像人工智能前沿，300页pdf

【2023新书】医学影像人工智能前沿，300页pdf

专知

32+阅读 · 2023年4月9日

从200多篇顶会论文看推荐系统前沿方向与最新进展

从200多篇顶会论文看推荐系统前沿方向与最新进展

专知

16+阅读 · 2021年4月3日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

相关基金

大数据高效能存储与管理方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

495+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

153+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

82+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

180+阅读 · 2023年3月24日

微信扫码咨询专知VIP会员