大模型如何适配生物医学？最新《生物医学大型语言模型研究》综述

近年来，大型语言模型（LLM）的突破性进展提供了前所未有的自然语言理解和生成能力。然而，现有关于生物医学领域LLM的综述通常侧重于特定应用或模型架构，缺乏对跨越多个生物医学领域的最新进展的综合分析。本综述基于对来自PubMed、Web of Science和arXiv等数据库的484篇文献的分析，深入探讨了LLM在生物医学中的现状、应用、挑战及未来前景，其独特之处在于关注这些模型在实际生物医学环境中的应用效果。

首先，我们探讨了LLM在广泛的生物医学任务中的零样本学习能力，包括诊断辅助、药物发现和个性化医疗等领域，并结合137项关键研究提供了深入见解。接着，我们讨论了LLM的适应策略，包括通过微调方法增强单模态和多模态LLM在特定生物医学背景下的表现，特别是在零样本学习效果不佳的领域，如医学问答和生物医学文献的高效处理。最后，我们分析了LLM在生物医学领域面临的挑战，包括数据隐私问题、模型可解释性有限、数据集质量问题，以及由于生物医学数据的敏感性而带来的伦理问题、对高度可靠模型输出的需求，以及将人工智能应用于医疗领域的伦理影响。

为应对这些挑战，我们还提出了LLM在生物医学领域未来的研究方向，包括通过联邦学习方法来保护数据隐私，以及整合可解释的AI方法来提高LLM的透明度。随着LLM领域的快速发展，持续的研究与开发对于充分利用LLM在生物医学中的能力，同时确保其负责任且有效的部署至关重要。

引言

通用大型语言模型（LLM），如PaLM [1]、LLaMA [2, 3]以及GPT系列[4, 5]，展示了其在广泛任务中的多功能性。这些模型在复杂的语言理解和生成任务中表现出色，包括翻译、摘要和细致的问题回答[6]。LLM能力的进步主要得益于深度学习算法的演进，特别是Transformer架构的引入及其后续优化[7]。随着LLM的不断成熟，其在各个领域的潜在应用日益显现，生物医学领域成为一个特别有前途的影响领域。图1展示了从2019年到2024年LLM及其变体在生物医学应用中的时间线，这一时间线说明了单模态和多模态LLM的快速发展。生物医学LLM的显著成就展示了其广泛和深远的影响。例如，MedPaLM [8]在提供详细的医学答案和达成科学共识方面与临床专家达到了92.9%的一致性。在基因组学领域，scBERT [9]通过改进的Performer架构为每个基因生成嵌入，增强了单细胞基因组数据的分析。像HuatuoGPT [10]、ChatDoctor [11]和BenTsao [12]这样的领域特定LLM的开发展示了其在可靠医学对话中的能力，显示了LLM在临床交流和决策支持中的潜力。从主要以单模态LLM为主的进展到越来越多的多模态LLM方法，反映了LLM在解决复杂生物医学挑战中的日益适应性。这种转变使得不同数据类型（如文本、图像和结构化临床数据）的整合成为可能。大型语言模型（LLM）在生物医学领域研究的快速增长和多样化进一步通过图2中的趋势得到了证实。对2018年至2024年生物医学领域LLM研究论文的时间分析表明，相关文献的数量逐年增加，并在2021年开始激增（图2a）。这一趋势表明人们对将LLM应用于生物医学挑战的兴趣和投入正在不断增加，反映了技术进步以及LLM在满足医疗保健和科研需求方面潜力的认可。这些研究论文在不同生物医学领域的分布显示，“医学”和“神经科学”是主要的研究重点领域（图2b）。这一分布表明LLM在不同医学专业和研究领域的广泛适用性，同时也指出了未来扩展和发展的潜在领域。

生物医学领域涵盖了从基础生物学研究到复杂临床应用的广泛学科，每个学科都有其专业术语和不断发展的知识体系[13]。这一广度和深度为LLM在生物医学中的应用带来了挑战。新研究成果、治疗方式和药物发展的不断涌现要求模型能够快速适应和整合新信息[14]。此外，生物医学应用的高风险性质要求LLM在准确性和可靠性方面达到极高标准，而这一标准目前的模型尚未始终如一地满足[15, 16]。这一缺陷源于许多LLM的通用特性，当面对生物医学文本中复杂且依赖于上下文的语言时，模型可能会产生误解和推断偏差[17]。同时，生物医学领域对敏感患者数据的依赖增加了实施难度，要求严格遵守数据保护和隐私法规，这给技术和伦理带来了双重挑战[18]。

尽管面临这些障碍，LLM在生物医学领域的应用潜力仍然值得期待。像BioMedLM [19]这样的模型展示了加速科学洞察获取的能力，而BianQue [20]和DISC-MedLLM [21]等方法在患者咨询过程中提供医学建议，可能有助于减轻临床工作负担。然而，这些应用的广泛采用依赖于LLM的专门训练和优化，以提高其在生物医学背景下的可靠性和专业性。

虽然已有若干综述探讨了LLM在生物医学中的应用，但我们的综述因其全面性和跨学科方法而与众不同。与以往通常专注于特定应用或模型架构的综述不同，我们深入分析了LLM在各个生物医学领域的应用，从基因组学到临床实践。涵盖2019年至2024年的发展，我们提供了对最新进展和未来趋势的洞察，包括单模态和多模态LLM方法。本综述基于对来自多个数据库的484篇文献的分析，全面考察了LLM在生物医学领域的现状、应用、挑战及前景。我们评估了LLM在不同生物医学任务中的零样本性能，分析了单模态和多模态方法的适应策略，并指出了LLM在生物医学应用中面临的具体挑战，提出了潜在的解决方案。通过探索LLM对医疗实践、生物医学研究和医疗系统的潜在影响，我们的目标是为研究人员、医疗专业人员和政策制定者提供清晰的路线图，以便理解和利用LLM在生物医学中的应用，促进明智决策并指导未来的研究工作。

2 背景

通过广泛的预训练和微调，LLM能够学习并捕捉语言中的复杂模式和语义关系。在以下章节中，我们将详细介绍LLM的核心结构、常见的模型架构以及微调技术。LLM的设计通常依赖于Transformer架构，并可分为三种主要类型：仅编码器、仅解码器和编码器-解码器[22]。每种架构都有其独特的优势，适用于不同类型的任务。

**2.1 仅编码器架构

仅编码器模型侧重于理解和表示输入文本[23]。这些模型特别擅长需要深度上下文理解的任务，如文本分类、命名实体识别和情感分析。双向编码器表示（BERT）[23]是该架构的一个例子。BERT的关键创新在于其双向特性，能够捕捉句子中每个词的左侧和右侧上下文。这种双向编码相比于以前的单向模型提供了更丰富的文本表示。BERT通过“掩码语言模型”的预训练目标实现这一点，模型学习预测句子中随机掩码的词，从而迫使其考虑完整的上下文。另一个值得注意的仅编码器模型是对比语言-图像预训练（CLIP）模型[24]。CLIP扩展了编码器架构到多模态学习，整合了文本和图像输入。通过使用对比学习，CLIP学习在共享的嵌入空间中对齐文本和视觉表示。仅编码器模型在专业科学领域，尤其是生物医学领域，取得了显著的进展。值得注意的例子包括scBERT[9]，它生成精细的基因嵌入以处理生物医学数据，在基因组分析中表现出色。另一个重要的模型是专为生物医学文本挖掘设计的BioBERT[25]，增强了科学文献中的命名实体识别和关系抽取任务。这些专门的适应性展示了仅编码器模型在应对复杂生物医学挑战中的多样性。

**2.2 仅解码器架构

仅解码器模型用于生成任务，按从左到右的顺序生成输出序列。这些模型在文本生成、对话系统和创意写作应用中表现出色。生成式预训练Transformer（GPT）系列，以最新的GPT-4为代表，展示了这种架构[4, 5]，它通过单向解码器结构，根据前面的上下文预测每个词元。此方法允许生成连贯且上下文相关的文本。GPT模型在庞大的文本语料库上进行训练，使其能够捕捉复杂的语言模式并在各个领域生成类似人类的文本。其他值得注意的仅解码器模型包括LLaMA[2]和PaLM[1]。这些模型优化了解码器架构以提高效率和可扩展性。例如，LLaMA以更少的参数表现出强大的性能，而PaLM则展示了在各种自然语言处理基准上改进的多任务学习能力。仅解码器架构也被扩展到多模态应用。例如，DALL·E[26]使用解码器根据文本描述生成图像。在生物医学领域，仅解码器模型已显示出有希望的应用。例如，它们已被用于医学报告生成和药物发现任务，如BioGPT[27]、CancerGPT[28]和Med-PaLM[29]。

**2.3 编码器-解码器架构

编码器-解码器架构，也称为序列到序列（seq2seq）模型，结合了编码器和解码器组件的优势。该设计适用于将一个序列转换为另一个序列的任务，如机器翻译、文本摘要和问答。在这种架构中，编码器处理输入序列并将其压缩为潜在表示。解码器则利用这种表示生成目标序列[30]。这种编码与解码的分离使模型能够有效处理长度和结构不同的输入和输出序列。编码器-解码器模型的两个例子是文本到文本转换Transformer（T5）[31]和双向自回归Transformer（BART）[32]。T5采用了统一的方法，将所有NLP任务框定为文本到文本问题，展示了出色的多任务处理能力。而BART则将BERT编码器的双向特性与GPT解码器的自回归生成结合起来，使其在文本生成和修复任务中表现尤为出色。在生物医学应用中，编码器-解码器模型显示了巨大的潜力。例如，BioBART[33]被用于生物医学文本生成和摘要任务。另一个显著的例子是GeneCompass[34]，一个用于解读基因调控机制的跨物种大型语言模型。这些应用展示了该架构在应对复杂生物医学挑战中的多功能性，从文本处理到解开不同物种间基因调控的复杂性。

3 LLM在零样本生物医学应用中的表现

通用LLM的潜力引起了生物医学领域的广泛兴趣。图3a展示了评估不同LLM在零样本生物医学任务中的研究分布。GPT-4和GPT-3.5是研究最多的模型，分别有36篇和35篇研究，其次是ChatGPT，共有19篇研究。这一分布表明了当前生物医学研究对OpenAI模型的关注，且不同模型之间的重叠研究趋势表明对比分析的倾向。尽管这些LLM在各个领域表现出色，但它们在解决生物医学领域独特挑战方面的有效性仍不确定。生物医学术语的专业性和整合特定临床背景的必要性为这些LLM提出了挑战。为了解决这一问题，许多研究直接探讨了通用LLM在生物医学各学科中的应用，重点研究了它们在临床诊断、决策支持、药物开发、基因组学、个性化医学和生物医学文献分析等领域的表现[15, 35, 36]。

**3.1 诊断辅助

诊断辅助是一项涵盖临床诊断和决策支持的生物医学技术[37]。它分析患者的临床数据和症状，结合医学知识与算法处理，提供帮助医生进行疾病诊断和治疗决策的建议[38]。其目标是提高诊断的准确性和效率，帮助医生更好地了解患者的情况并制定个性化的治疗计划。为了评估通用LLM在生物医学诊断中的零样本能力，研究人员设计了一系列跨多个专业的问题。研究评估了LLM在肿瘤学[39, 40]、急诊医学[41]、眼科[42, 43]和护理学[44]等领域的表现，结果表明LLM在这些领域的诊断任务中可以达到与人类专家相当的准确度。Ward等人[45]对LLM在神经外科情景中的表现进行了对比研究。他们创建了30个具有共识要点的临床情景，邀请不同经验水平的医生对诊断问题作答。结果显示，GPT-4在分诊和诊断方面达到了100%的准确率，而GPT-3.5的准确率为92.59%。这些结果突显了GPT-4的卓越诊断准确性，表明其在临床决策中具有作为可靠工具的潜力。在肿瘤学领域，Deng等人[46]发现GPT-4在乳腺癌临床情景中的分诊和诊断中达到了100%的准确率，与高级医学专家的表现高度一致。同样，Haver等人[39]展示了GPT-4在神经外科中的有效性，诊断和分诊神经外科病例的准确率为100%，并且敏感性和特异性都达到了完美水平。这些发现表明，GPT-4在多个医学领域中作为可靠临床决策工具的潜力日益增长。

**3.2 生物医学组学和药物发现

生物医学科学是一个跨学科领域，涵盖了药物开发、基因组学和蛋白质研究等多个领域[47, 48]。它结合了工程学、生物学和医学，利用先进的生物技术手段研究疾病的预防、诊断和治疗[49]。通过探索生命过程的分子机制，该领域旨在开发新的生物医学方法和药物，以提高人类健康和疾病管理。例如，一项研究利用LLM进行候选基因优先排序和选择，显著提高了识别潜在基因-疾病关联的效率。该方法利用先进的自然语言处理技术分析大量基因和生物医学数据，最终优先选择了与特定疾病高度相关的基因[50]。在另一项研究中，BERT被用于识别整个PubMed数据库中的药物-靶点相互作用，达到了99%的准确率，并识别出60万篇包含相关数据的新文章[51]。此外，Hou等人[52]利用GPT-4对单细胞RNA-seq分析中的细胞类型进行注释，结果显示GPT-4能够使用标记基因信息准确注释细胞类型。在大多数研究和组织中，该方法与人工注释的符合率超过了75%，展示了其减少细胞类型注释所需的人力和专业知识的潜力。这些进展总体上表明，AI驱动的模型具有改变生物医学研究的潜力，提供了更精确和高效的工具来理解疾病并开发治疗方法。

**3.3 个性化医学

LLM在通过在线医学咨询普及医学知识方面也展示了潜力[40, 53-55]。这一能力确保了生物医学信息的广泛获取，并允许根据个人状况进行个性化定制，这对远程医疗有着深远的影响[15, 56]。然而，使用LLM开发个性化治疗方案需要严格遵守医学伦理和患者隐私的规定。确保所有数据的收集、存储和使用符合法律法规和伦理标准是至关重要的。Ferrario等人[57]评估了GPT-4在应对各种医学伦理案例中的表现。研究结果表明，虽然GPT-4能够识别和表达复杂的医学伦理问题，但它在更深入编码现实伦理困境方面仍需改进。Sandmann等人[58]对LLM在临床决策中的表现进行了评估。他们使用ChatGPT、LLaMA和一个朴素基线模型，对不同临床学科的110个病例的初步诊断、检查步骤和治疗进行了临床准确性评估。结果表明，GPT-4在测试模型中表现最佳。更重要的是，这项研究表明，开源LLM可能是解决个性化医学应用中数据隐私问题的可行方案。

**3.4 生物医学文献和研究

LLM与生物医学研究和写作的结合提高了研究效率、公正性和可访问性[59]。这种协同作用使专家和研究人员能够更有效地获取、理解和应用最新的生物医学信息，从而提高研究生产力。LLM已在生物医学文献的多个关键领域展示了效用，包括文献检索、大纲准备、摘要写作和翻译任务。Mojadeddi等人[60]评估了ChatGPT在文章写作中的表现。研究结果表明，虽然ChatGPT可以加快写作过程，但尚未达到专业生物医学写作者的水平，仍存在一定的局限性。这凸显了进一步研究AI在科学写作能力方面的必要性。Huespe[61]评估了GPT-3.5撰写重症监护临床研究问题背景部分的能力。在这项研究中，邀请了80位研究人员区分人工撰写内容与LLM生成内容。结果表明，GPT-3.5在这一特定任务中的写作能力与生物医学研究人员相当。

**3.5 基准数据集和评估指标

在评估LLM对生物医学问题的表现时，使用了多种基准数据集。表1展示了近期研究中使用的基准数据集。这些数据集涵盖了从基本文本响应到复杂多模态数据的广泛任务。文本数据集如MedSTS[62]、PubMedQA[63]和MedQA[64]专注于评估LLM在语义相似性、问答和内容摘要等生物医学任务中的表现。专门的数据集如GenBank[65]测试LLM处理基因组序列的能力，这对于基因组学和个性化医学中的应用至关重要。多模态基准如MultiMedBench[66]挑战LLM整合和解释来自多个来源的数据，如医学图像和随附的文本描述，反映了医学诊断的复杂性。用于评估模型在不同任务中表现的常用指标包括准确率、BLEU-1、F1评分和ROUGE-L[65, 67, 68]。在评估LLM在生物医学对话场景中的表现时，开发了专业性、流畅性和安全性等特定指标，以捕捉生物医学交流的细微要求[69-71]。

**3.6 总结

我们的分析表明，未经专门训练的LLM在没有太多上下文提示的情况下，可以展示对生物医学术语和概念的基本理解。然而，它们在不同生物医学学科和任务中的表现有所不同。图3b提供了LLM在不同生物医学专业水平中的相对表现的宝贵见解。小提琴图表明，虽然LLM在所有专业水平上总体表现高于基线，但其表现最为一致的是中级水平。在高级和专家级水平上，表现的波动性更大，表明LLM在处理需要高级专业知识的复杂任务时可能会遇到困难[59]。不同生物医学学科的评估结果突显了LLM在零样本生物医学应用中的潜力和局限性[45, 77, 78]。在某些特定的生物医学领域，LLM的表现可与经验丰富的医生相媲美。然而，在需要深入生物医学知识和临床推理的更专业的上下文或复杂任务中，LLM可能表现出不足或完全失效。在大多数生物医学应用场景中，LLM的零样本表现尚不足以满足直接临床应用的要求，尤其是在罕见病诊断或复杂外科规划等极具挑战性的任务中[79, 80]。这些发现强调了在将LLM直接应用于复杂的生物医学任务时需要谨慎，除非进行微调或重新训练。尽管LLM在生物医学领域的前景令人期待，但在生物医学应用中的局限性必须得到考虑，并谨慎定义其在伦理和临床决策过程中的角色。

4 将通用LLM适应生物医学领域

当通用大型语言模型（LLM）以零样本方式应用于生物医学领域时，往往会遇到各种挑战，主要原因在于该领域的高度专业化。生物医学领域使用独特的词汇、命名法和概念框架，通用LLM可能无法理解这些内容[113]。这种特异性不仅限于术语，还包括生物实体之间的复杂关系、复杂的疾病机制以及细微的临床背景。此外，生物医学领域涵盖了多样化的任务，从文献分析和临床笔记解读到支持诊断决策和药物发现过程。这种多样性要求LLM能够执行广泛的专业功能，每项任务都需要领域特定的知识和推理能力[114, 115]。此外，生物医学研究越来越依赖多模态数据的整合，这些数据类型包括文本、图像（如放射学扫描、组织学切片）和分子序列（如DNA、蛋白质结构）[116, 117]。有效处理和综合这些不同来源的信息对LLM提出了额外的挑战。为了应对这些挑战并提高通用LLM在生物医学应用中的适用性，已经开发了几种适应策略。这些策略包括领域特定的微调、架构修改以及从头开始创建专门的生物医学LLM。图4展示了适应或创建LLM用于生物医学应用的过程，概述了从数据预处理和整理到模型训练、微调和评估的关键阶段。适应过程涉及整理高质量的、领域特定的数据集，以捕捉生物医学语言和知识的细微差别。然后，使用这些数据集对现有LLM进行微调或训练新模型，结合在生物医学语料库上继续预训练、任务特定微调和多任务学习等技术，以提高在各种生物医学任务中的表现[12, 88]。通过这些努力，出现了多种专门针对生物医学研究和临床实践的LLM模型。表2提供了这些微调和定制模型的概述，展示了它们在生物医学领域内的多样性和专业性。

**4.1 单模态适应策略

为了将通用LLM适应生物医学领域，微调可以使模型深入理解该领域的专业术语、复杂概念和语言习惯。这增强了它们在处理生物医学文本等专业数据时提供更准确和深入分析与生成的能力。微调方法包括全参数微调、指令微调、参数高效微调和混合微调。

全参数微调

全参数微调涉及使用领域特定的数据更新预训练LLM的所有参数。与传统的微调方法（如仅微调顶层）不同，全参数微调允许模型的每一层都学习任务特定的知识。例如，GatorTron[81]是一种在临床数据上微调的模型，在医学问答中达到了93.01%的F1分数，超过了之前的基准7.77%。尽管全参数微调通常可以带来最佳表现，但它也伴随着高昂的计算成本。例如，微调GatorTronGPT-20M[17]耗费了超过268,800 GPU小时（使用A100 GPU），这使得资源受限的环境难以承担。

指令微调

指令微调（IFT）是一种通过修改预训练模型的基础指令来优化其在生物医学领域特定任务或领域中的适应性的技术[118]。这一方法在提高模型在专门医学任务上的表现方面显示出了良好的效果。例如，MEDITRON[96]是一种在LLaMA-2上使用IFT微调的模型，在多个医学基准测试中平均表现提高了1.8%。同样，AlpaCare[100]利用了精心整理的52,000条医学指令，在HeadQA基准测试中实现了30.4%的性能提升，展示了精心设计的指令集在提升模型能力方面的潜力。IFT的主要优势在于，它能够使用相对较少的数据将模型适应特定的生物医学领域。然而，IFT的有效性在很大程度上依赖于所用指令的质量和多样性。设计不良或有偏见的指令可能导致模型行为不一致或不可靠，从而在关键的医学应用中削弱模型的实用性。

参数高效微调

参数高效微调（PEFT）包括一组旨在通过调整模型的少部分参数来提高LLM性能和训练效率的技术[119]。两个显著的PEFT方法是LoRA（低秩适应）[120]和QLoRA（量化LoRA）[121]，通过向模型添加可训练的小矩阵来实现任务特定的适应，而不修改整个模型架构。PEFT方法的效率令人瞩目，通常可以减少99%以上的可训练参数，同时保持与全微调相当的性能。例如，MMedLM 2[68]使用LoRA在多语言医学问答任务中取得了竞争性的表现，同时只微调了模型参数的一小部分。这种方法减少了计算需求，使得在资源有限的环境（如小型医院或研究实验室）中部署定制的医疗AI模型成为可能。然而，当任务需要对基础模型知识进行大量修改时，PEFT方法可能会面临局限，因为它们主要侧重于适应现有知识，而不是引入全新的信息。这一限制可能会影响其在高度专业化或快速发展的生物医学领域中的有效性。

混合微调

混合微调是一种结合多种参数高效调优技术以提高模型性能和训练效率，同时尽量减少额外参数引入的方法。例如，HuatuoGPT[10]通过监督微调和RLAIF[122]，在GPT-4评估、人类评估和医学基准数据集上表现出了在开源LLM中执行医疗咨询的最新成果。混合微调策略在性能和效率之间提供了平衡，解决了单一技术的一些局限性。它们允许模型更灵活地适应医疗AI的独特挑战，如既需要广泛的医学知识，又需要专业的医学知识。然而，这些方法通常需要更复杂的实现和多个组件的精细调优。

**4.2 多模态适应策略

多模态LLM可以整合不同的数据类型，从而提供全面的见解。该模型的核心优势在于能够融合来自不同模态的信息，包括文本、图像、基因序列和蛋白质结构。这种融合不仅弥合了跨学科的差距，还反映了医疗诊断和研究的多面性[123]。在临床环境中，患者评估通常涉及多种数据类型，包括文本信息（如医疗报告）、视觉数据（如X光和MRI）以及数值测量（如实验室结果和生命体征）。多模态LLM旨在整合这些不同来源的数据，以提供更准确和全面的生物医学见解。例如，通过将医学影像与临床文本报告和其他相关数据结合，这些模型可以提高诊断的准确性和稳健性[124]。此外，多模态模型还可以促进基因组数据与表型信息的整合，从而更全面地研究疾病机制并发现新药物[112]。微调策略在生物医学多模态模型的应用中发挥了关键作用，确保这些模型能够充分理解和处理跨模态数据。这些策略包括通过LoRA[120]和层归一化[125]技术优化视觉编码器。此类优化旨在增强模型解读医学图像中关键特征的能力。同时，这些策略整合了视觉和文本输入，利用注意力机制和多层感知器（MLP）层增强模型在生成放射学报告中的能力，例如ClinicalBLIP[110]模型。具体而言，ClinicalBLIP在使用MIMIC-CXR[126]数据集的放射学报告生成任务中表现优异，通过这些微调策略获得了0.534的METEOR评分[127]，显著超越了其他模型的表现，突出展示了ClinicalBLIP在处理复杂多模态数据方面的卓越能力。同样，Med-Gemini[111]采用了构建联合嵌入空间的策略，能够在统一的潜在空间内直接比较和整合来自不同模态的数据。这一策略在复杂的医疗任务中表现出色，特别是在癌症诊断方面，整合基因组数据和病理图像显著提高了诊断准确性。这些微调策略通过优化模型在生物医学多模态任务中的表现，展示了多模态模型在医学领域应用的巨大潜力。此外，它们强调了微调在提高模型泛化能力和任务适应性中的关键作用。

**4.3 训练数据与处理策略

将通用LLM适应生物医学领域的关键在于数据的质量、多样性和处理方式。本小节将探讨开发和改进生物医学LLM时使用的关键数据集和有效策略。 4.3.1 数据集概述

用于LLM训练和评估的生物医学数据集主要分为三类：基于文本、基于图像和多模态。表3总结了最近研究中使用的数据集。基于文本的数据集如PubMed，在训练模型如BioGPT[27]中起到了重要作用。同样，包含超过40,000名患者去识别健康记录的MIMIC-III数据集为GatorTron[81]等模型提供了学习真实世界临床数据的机会。多模态数据集整合了各种数据类型，促进了更全面的模型训练。MultiMedBench[66]数据集通过将临床笔记与医学测量和影像数据对齐，体现了这一方法。基于这些数据集训练的模型如Med-PaLM M[66]在需要整合异质数据类型的任务中表现出色，弥合了文本和视觉医学信息之间的差距。 4.3.2 数据处理策略

为了最大限度地利用这些数据集，研究人员采用了多种数据处理技术。 数据增强

数据增强旨在增加数据集的大小和多样性，从而提高模型的稳健性和泛化能力。Chen等人[20]在开发BianQue时结合了自动数据清理和基于ChatGPT的数据优化。这一方法不仅提高了训练数据的质量，还使模型在医疗咨询任务中的表现提高了15%。 数据混合

整合多样化的数据源也能增强模型能力。Bao等人[21]在DISC-MedLLM中展示了这一点，采用了数据融合策略。通过结合来自医学知识图谱的结构化信息与人工筛选的样本，他们在处理医疗查询方面相比于仅在单一数据源上训练的模型提升了20%。 4.3.3 LLM中的联邦学习

在生物医学LLM领域，由于严格的医疗法规，直接的数据共享通常不可行。联邦学习（FL）[128]作为一种变革性解决方案，可能会重新塑造未来的LLM训练方式。与在单一专有数据中心训练的传统LLM不同，生物医学LLM需要通过FL有效访问多样化的数据集。OpenFedLLM框架[129]促进了跨地理分布数据集的联邦学习，同时推动了伦理对齐。对此，Wu等人[130]提出了专门设计用于增强医学语言建模的FedMed框架，以缓解联邦学习环境中的性能下降。Zhang等人[131]进一步推进了这一领域，展示了将联邦学习与基于提示的方法结合用于临床应用的有效性，增强了模型的适应性，同时保护了患者隐私。Nagy等人[132]探讨了用于训练大型语言模型（如BERT和GPT-3）的隐私保护技术，提供了在不影响性能的情况下保持隐私的见解。为应对多语言挑战，Weller等人[133]研究了在多个语言环境中使用预训练语言模型进行联邦学习的方法，重点关注医学领域的各种NLP任务。最后，Kim等人[134]提出通过在预训练的LLM中集成适配器机制来提高联邦学习中的计算效率，展示了使用较小的Transformer模型来降低计算需求的好处。

**4.4 总结

本节探讨了将通用LLM适应生物医学领域的过程，重点介绍了数据质量、处理策略与模型适应技术之间的重要关系。我们回顾了多样化数据集和先进数据处理方法在开发稳健的生物医学LLM中的基础作用，并考察了从全参数微调到更高效的指令微调和参数高效技术的各种适应方法。尽管取得了这些进展，数据隐私、模型可解释性和公平性方面的挑战仍然存在。未来的研究可以着眼于开发更高效、可解释且符合伦理的适应技术。重点领域包括提高模型透明性、解决公平性问题，以及探索高级联邦学习方法，以在保护患者隐私的同时利用分散的医疗数据。多模态方法的整合也为更全面的医疗解决方案提供了有希望的途径。随着生物医学LLM的持续发展，在平衡技术创新与伦理考量方面将变得尤为重要。通过解决当前的挑战并抓住新兴的机遇，这些模型有望彻底改变医疗保健，从提高临床决策支持到加速生物医学研究，最终实现更有效和更公平的医疗服务提供。

结论

在本研究中，我们探讨了通用大型语言模型（LLM）在生物医学领域的潜力和应用。通过评估单模态和多模态LLM在处理医学文本、图像以及综合数据方面的表现，我们验证了这些LLM在提高医学研究效率和准确性方面的潜力。我们的研究首先概述了LLM在生物医学领域的现状，指出了直接应用通用LLM的局限性，并强调了微调策略的重要性。尽管LLM具有广泛的应用前景，但其在生物医学领域的应用仍面临诸多挑战，包括数据隐私和安全问题、模型可解释性、数据集的质量和多样性以及高计算资源需求。这些挑战限制了LLM的广泛应用。为应对这些挑战，我们提出了未来的研究方向，包括提高数据质量和多样性、增强模型可解释性、开发高效且经济的微调方法、探索多模态数据融合技术以及促进跨学科合作。这些措施将进一步推动LLM在生物医学领域的应用和发展。

成为VIP会员查看完整内容