如何让模型适配专业领域?这篇文章够了
大型语言模型(LLMs)显著推进了自然语言处理(NLP)领域的发展,为广泛应用提供了高度有用且任务不受限的基础。LLMs作为通用任务解决器的巨大潜力激励人们将其功能大幅度扩展,远超“聊天机器人”,并将其用作特定领域如健康保健、金融和教育等领域的专家和工具的助手甚至替代品。然而,直接应用LLMs解决特定领域的复杂问题会遇到许多难题,这些难题由领域数据的异质性、领域知识的复杂性、领域目标的独特性,以及领域应用中的各种限制(例如,各种社会规范、文化一致性、宗教信仰和道德标准)所引起。为了填补这种空白,在最近几年中,对LLMs领域专化的研究和实践已经爆炸式增长,然而,这需要一个全面和系统的审查来更好地总结和引导这个有前景的领域。在这篇综述论文中,首先,我们提出了一个系统的分类法,该分类法根据对LLMs的可访问性对LLMs领域专化技术进行分类,并总结了所有子类别的框架以及它们之间的关系和差异。我们还提出了一个全面的关键应用领域分类法,这些领域可以从专业化的LLMs中受益,讨论了它们的实际意义和开放的挑战。此外,我们还提供了关于该领域当前研究状态和未来趋势的见解。
https://www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414
1. 引言
自然语言处理(NLP)和人工智能(AI)模型的演变经历了显著的轨迹,始于1950年和1960年的基于规则的系统,转变为1990年的统计模型,然后是2010年神经网络的出现。由于自注意力和基于Transformer的神经网络架构[240]的成功,预训练语言模型(PLMs)在2010年后期出现并迅速流行,这得益于它们能以无监督的方式从大规模数据中学习通用语言表示,这对许多下游NLP任务如常识推理[270],多选题回答[206]和故事生成[30]都有益处,同时避免了从头开始训练新模型。在过去的几年中,随着大规模语料库和硬件容量的快速增长,研究人员发现,通过扩大模型和训练数据可以持续提高模型的容量,遵循扩展规则[99],最终导致了大型语言模型(LLMs)[259]的出现,如GPT-3[28](175B参数),PaLM[39](540B参数),和LLaMA[235](65B参数)。LLMs在理解和生成类人文本方面明显优于较小的模型,已经成为一个有前途的AI研究趋势。他们通过高效的文献分析、新颖的假设生成和复杂的数据解释,对改变自然和社会科学的潜力,可能会加速研究、提高发现过程并促进跨学科合作。
大型语言模型(LLMs)作为通用任务解决器的巨大前景激励人们将其功能大幅度扩展,远超过仅作为“聊天机器人”[173],而是将其用作特定领域如健康保健、金融和教育的助手,甚至替代人工或现有的事实上的工具。然而,直接应用LLMs进行领域特定的问题解决会遇到许多难题。首先,不同领域、角色和任务的对话和语言风格存在显著差异,范围从医疗处方,到法律句子,到在线聊天等。获取这些能力和经验甚至需要人类进行多年的训练,其中很多都是实践性的和专有的。此外,不同的领域、机构和团队有自己的“商业模式”,关于哪种回应将最大化他们自己的效用函数以完成他们的任务,这是不能直接被一个没有定制的通用LLMs解决器所替代的。更重要的是,专业级使用的领域知识要求也需要非常深入,实时且准确,这些都不是预训练的LLMs能轻易达到的。许多领域知识资源是机构的专有资产和核心竞争力,绝不能泄露给通用的LLMs。最后但并非最不重要的一点,语言受到社会规范、文化一致性、宗教信仰、法律要求和道德实践的约束,所有这些在不同的地方、国家、人口、种族、社区等都是变化的参数,这使得通用的LLMs不可能成为一个无需任何定制的一体适应所有的解决器。所有上述的难题都导致了“将LLMs专业化到领域”或“LLMs的领域专业化”的必要性,即将通用的LLMs定制到领域的上下文数据,增强领域知识,优化领域目标,并受到领域限制的调控。为了实现这个目标,这个主题目前正在经历极其快速的增长。
LMs领域专业化是一个关键且具有挑战性的问题,需要创新并集成有效的技术来解决其独特特性引起的严重挑战,包括:1) 知识差距和领域专业知识。LLMs的力量主要归因于其大量的训练语料。然而,这也意味着LLMs往往有一个知识断层(即,LLMs无法获取最新的信息、事件或发现)。在许多专业领域,新的发现、规定和最佳实践不断出现,这使得LLMs难以保持最新。例如,每天都有超过30,000篇主流新闻文章发布[247]。对于社交媒体分析和事实检查,LLMs可能无法处理它们,因为从训练语料中提取的知识是离线的。这表明需要定期重新训练或持续学习机制来保持LLMs在这些动态领域的相关性和准确性。然而,确保模型的新鲜度可能需要大量的资源,因为它需要连续的高质量和最新的数据收集、处理,以及计算密集的模型重新训练。2) 从LLMs中引出领域知识。默认情况下,LLMs具有广泛主题的通用知识,并可能已经看到并获得了大部分领域的特定知识。然而,更受欢迎或广泛讨论的话题可能被过度代表,而一些领域特定的话题可能被低估,这使得它们难以被有效地提取用于领域特定的任务。此外,领域特定的任务通常涉及复杂的概念、专业术语和不同实体之间的复杂关系。没有适当的指导,LLMs可能会生成听起来合理但对类似查询(即,LLM的幻觉)或略微改写的问题的答案不一致[15]。这个问题是因为LLMs被设计为基于输入预测最可能的词序列,而不是基于结构化知识库提供确定的答案。研究人员发现,通过为LLMs提供一些任务特定的演示,用户可以指导模型生成更相关、准确和任务特定的回应,从而提高AI系统在众多领域的整体效用和效率[259]。使得理解预期含义或期望结果变得困难。更不用说LLMs通常具有有限的上下文窗口,通常由它们可以处理的最大令牌长度决定(例如,ChatGPT只能处理4097个令牌)。3) 模型复杂性和微调所需的大量计算资源。为了更好地适应特定领域应用,微调历史上是专门化语言模型的常用做法。然而,与传统的语言模型不同,微调LLM需要大量的高质量、领域特定数据进行有效的微调。获取、清洗和预处理这样的数据可能会耗费大量时间和资源。此外,LLM的复杂性使得确定最适当的微调策略变得具有挑战性,因为超参数的选择、学习率和训练持续时间的选择可以显著影响模型的性能。Chen等人[34]还讨论了微调LLM可能会导致严重的灾难性遗忘,因为具有复杂架构的LLM在微调过程中更有可能忘记之前学到的知识,并过度适应目标领域。除了数据需求和复杂模型架构之外,LLM通常由数十亿的参数组成,例如,生成预训练Transformer 3(GPT-3)[28]和Pathways Language Model (PaLM)[39]都包含超过1000亿的参数,这需要大量的计算能力进行训练。微调或重新训练这些模型需要访问高性能GPU或专用硬件,如TPU,这可能会很昂贵,尤其是对于个人研究者或小型组织来说,获取这些资源可能会非常困难。
在过去的几年中,对LLMs领域专业化技术进行了大量的研究。许多方法侧重于通用技术贡献,只需进行少量修改并获取领域特定信息,就可以适应特定领域。然而,将这些技术在不同应用领域间进行交叉引用仍然是一个挑战,同样的,缺乏对评估各种领域专业化技术的方法进行系统标准化和总结的挑战也存在。这种缺乏清晰度为非AI专业人员制造了障碍,并使现有的瓶颈、陷阱、开放问题和潜在的未来研究方向变得模糊不清。为了克服这些障碍,更有效地利用人工智能完成各种领域的任务,这篇综述文章提供了对当前最先进的LLM领域专业化的全面和系统的回顾。本文的主要贡献包括:
• 对LLMs领域专业化技术的系统分类和分类法:我们基于对LLM的不同级别(即,黑箱、灰箱和白箱)的可访问性,全面地分类了现有的方法,并将其对应的技术组织成一个分类法。我们讨论了不同子类别之间的细节、关系、优点和缺点。这个提出的分类法旨在帮助领域专家确定最适合他们的目标问题设置的技术。
• 对主要应用领域的全面分类和总结:我们首次提出了代表性应用领域的分类法,LLMs的领域专业化可以增强这些领域。每个应用领域或子领域的实际意义和开放挑战都被阐明,便于与提出的技术分类法进行易于映射。研究人员和各种领域的专家可以交叉引用额外的应用领域,以评估他们新提出的方法,同时扩大他们的先进技术以包含新的应用领域。
• 对这个领域当前研究状况和未来趋势的深入讨论。我们已经概述并讨论了LLM领域专业化的整体情况和趋势。本文最后通过展示对瓶颈、开放问题的新见解,以及可能的未来方向的讨论来结束。
2. 领域专业化的分类法
大型语言模型通常被称为基于Transformer架构的大规模预训练语言模型 (PLMs) [157, 193]。实证证据表明,扩展预训练语言模型,如增加模型大小或数据大小,常常能提升模型在下游任务中的处理能力。在本节中,我们首先回顾了PLMs的基本概念,然后介绍了一套针对特定领域专门化大型语言模型的现有技术的全面分类法。
根据对大型语言模型(LLMs)的可访问性级别,将专门化LLMs进入领域的方法分为三类,即无访问权限(黑箱),部分访问权限(灰箱)和全访问权限(白箱)。黑箱通常表示我们只能访问模型API(例如,ChatGPT和GPT4),而不知道除生成的输出外的任何信息;灰箱表示我们有限的信息(例如,GPT-3 API中生成的令牌的概率),这样的信息可以指导我们设计并微调适当的提示,以更好地引出领域知识;白箱则表示我们可以全面访问LLM(例如,LLaMA及其变种),包括参数设置,训练数据和完整的模型架构。我们在图2中提供了每种方法的概述。具体来说,
1)外部增强(黑箱)并不需要访问LLM的内部参数空间,使其对资源有限的用户(例如,计算资源,特定领域的数据)最为可接触。如图2(b)所示,通过使用外部资源或工具,将领域特定知识融入输入提示,生成的输出,或两者,有效地改进了LLM的性能,而无需修改其内部结构。
2)提示制作(灰箱)涉及访问LLM的梯度或损失值来设计各种类型的提示,允许更精细地控制模型的行为。
3)模型微调(白箱)需要最多的访问权限和资源,因为它涉及更新LLM的参数,将领域特定知识直接融入模型。(图2(d))。
3 LLM领域专业化的应用
在这篇综述性的论文中,我们探索了LLMs在一系列特定领域任务中的应用,这些领域包括社会科学(如教育,金融,法律),自然科学(如生物医学,地球科学),以及应用科学(如人机交互,软件工程和网络安全)。为了在这些多元化领域实现LLMs的领域专业化,读者可以采用各种技术,如外部增强,指示制作,和知识更新。这些方法可以帮助将LLMs定制到每个领域的特定任务和挑战,从而使得应用更准确,相关和有效。虽然每个领域都有其独特的挑战和需求,但在这些领域中,专门化的LLMs有几个共同的应用:
• 高级信息提取:它们可以从特定领域的文本中识别实体,关系和事件,如从生物医学文献中识别基因,或在合同中检测法律条款。 • 文本生成和摘要:它们可以生成高质量的,特定领域的内容,并创建复杂领域特定文本的准确摘要。 • 数据驱动的预测和推荐:它们可以分析特定领域的数据进行预测和提供推荐,如预测金融趋势或建议个性化的医疗治疗方案。 • 对话代理和专家系统:它们可以被融入到对话代理或专家系统中,提供特定领域的指导,如虚拟导师或法律聊天机器人。 • 自动化代码生成和分析:在软件工程中,它们可以基于自然语言描述生成或分析代码,识别错误,或提出改进建议。
4. 结论
总的来说,大型语言模型的快速发展引发了人们对利用它们的潜力来处理各种自然,社会和应用科学领域中的特定领域任务的极大兴趣。然而,若干挑战,如特定领域的专业知识有限,知识诱导和模型复杂性,阻碍了LLMs在这些领域的直接应用。本调查系统地对基于对LLM的访问级别的现有领域专业化技术进行了分类和总结,并提供了一个全面的应用领域分类,这些领域可以从专门化的LLMs中受益。通过提供不同技术和领域之间的优点,缺点和关系的详细分析,这份调查旨在帮助领域专家确定适合他们目标问题设置的技术,同时也为数据科学家提供了对各种应用领域中实践意义和开放挑战的清晰理解。此外,该文还强调了这一领域研究的当前状态,揭示了未来的趋势和跨学科合作的潜在途径。随着LLM领域专业化的领域继续发展,这份调查为研究人员和从业人员提供了宝贵的资源,进一步推动了人工智能在多个领域应用的进步和创新。