如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

首篇大模型语言评估论文

大型语言模型（LLM）在学术界和工业界的热度日益升高，这要归功于它们在各种应用中的无与伦比的表现。随着LLM在研究和日常使用中继续发挥重要作用，对它们的评估变得越来越重要，不仅在任务级别，而且在社会级别以更好地理解它们的潜在风险。过去的几年里，人们从各个角度对LLM进行了大量的研究。本文对这些LLM的评估方法进行了全面的回顾，重点关注三个主要维度：评估什么，在哪里评估，以及如何评估。首先，我们从评估任务的角度提供一个概览，包括一般的自然语言处理任务，推理，医疗应用，伦理，教育，自然和社会科学，代理应用，以及其他领域。其次，我们通过深入研究评估方法和基准来回答“在哪里”和“如何”评估的问题，这些都是评估LLM性能的关键组成部分。然后，我们总结了LLM在不同任务中的成功和失败案例。最后，我们讨论了LLM评估面临的一些未来挑战。我们的目标是为LLM评估领域的研究人员提供有价值的见解，从而帮助开发出更高效的LLM。我们的主要观点是，应将评估视为一个重要的学科，以更好地助力LLM的发展。我们会持续更新相关的开源资料，地址为：https://github.com/MLGroupJLU/LLM-eval-survey。

理解智能的本质并确定机器是否体现了这种智能，对科学家们来说是一个引人入胜的问题。人们普遍认为，真正的智能赋予我们推理能力，使我们能够测试假设，并为未来的可能性做准备（Khalfa，1994）。特别是，人工智能（AI）研究人员关注的是机器智能的开发，而非生物性智力（McCarthy，2007）。适当的测量有助于理解智能。例如，衡量人类个体普通智能的方式通常包括智商测试（Brody，1999）。在AI的范围内，图灵测试（Turing，2009）作为一个广为认可的通过辨别响应是否源自人类或机器来评估智能的测试，一直是AI发展中的一个长期目标。研究人员普遍认为，一个成功通过图灵测试的计算机可以被视为具有智能。因此，从更广泛的角度看，AI的历史可以被描绘为创造和评估智能模型和算法的时间线。每当出现一个新的AI模型或算法，研究人员都会通过使用特定且具有挑战性的任务在现实世界场景中评估其能力。例如，被誉为1950年代人工通用智能（AGI）方法的感知器算法（Gallant等人，1990），后来由于无法解决XOR问题而被揭示为不足。支持向量机（SVM）（Cortes和Vapnik，1995）和深度学习（LeCun等人，2015）的随后崛起和应用，标志着AI领域的进步和挫折。以前尝试的一个重要启示是AI评估的至关重要性，它作为一个关键工具，用来识别当前系统的限制并指导更强大模型的设计。

由于若干原因，评估对于LLM的成功至关重要。首先，评估LLM可以帮助我们更好地理解LLM的优点和缺点。例如，PromptBench（Zhu等人，2023）基准测试表明，当前的LLM对对抗性提示敏感，因此需要仔细的提示工程设计以获得更好的性能。其次，更好的评估可以为人与LLM的交互提供更好的指导，这可能激发未来的交互设计和实现。第三，LLM的广泛适用性强调了确保其安全性和可靠性的至关重要性，特别是在如金融机构和医疗设施等对安全敏感的领域。最后，随着LLM变得越来越大，具有更多的新出现的能力，现有的评估协议可能无法足够评估它们的能力和潜在风险。因此，我们的目标是通过回顾当前的评估协议，尤其是对设计新的LLM评估协议的未来研究进行深入研究，以提醒社区注意到LLM评估的重要性。随着ChatGPT（OpenAI，2023a）和GPT-4（OpenAI，2023b）的推出，有许多研究工作试图从不同的角度评估ChatGPT和其他LLM（图2），包括自然语言任务、推理、鲁棒性、可信度、医疗应用和伦理考虑等一系列因素。尽管做出了这些努力，但仍然缺乏对整个评估范围的全面概述。此外，LLM的持续演化也为评估提出了新的方面，从而挑战了现有的评估协议，并强化了需要彻底的、多方面的评估技术的需求。尽管像（Bubeck等人，2023）这样的现有研究声称GPT-4可以被视为AGI的火花，但由于其评估方法的人造性质，其他人对此进行了质疑。

本文是关于大型语言模型评估的首份全面调研。如图1所示，我们从三个维度探讨了现有的工作：1）评估什么，2）在哪里评估，3）如何评估。具体来说，“评估什么”涵盖了LLM的现有评估任务，“在哪里评估”涉及到为评估选择适当的数据集和基准，而“如何评估”则关注在给定适当的任务和数据集的情况下的评估过程。这三个维度对于LLM的评估是不可或缺的。我们随后讨论了LLM评估领域的潜在未来挑战。本文的贡献如下：1）我们从三个方面对LLM评估进行了全面的概述：评估什么，在哪里评估，如何评估。我们的分类是通用的，涵盖了LLM评估的整个生命周期。2）对于评估什么，我们总结了各个领域的现有任务，并得出了关于LLM成功和失败案例的深刻结论（第6节），为未来的研究提供了经验。3）对于在哪里评估，我们总结了评估指标、数据集和基准，以深入理解当前的LLM评估。关于如何评估，我们探讨了当前的协议，并总结了新的评估方法。4）我们进一步讨论了评估LLM的未来挑战。我们在https://github.com/ MLGroupJLU/LLM-eval-survey开源并维护了LLM评估的相关材料，以促进更好评估的协作社区。

2. 大型语言模型

语言模型（LMs）（Devlin等人，2018；Gao和Lin，2004；Kombrink等人，2011）是一种具有理解和生成人类语言能力的计算模型。LMs具有预测词序列的可能性或者根据给定输入生成新文本的变革性能力。N-gram模型（Brown等人，1992）是最常见的LM类型，它根据前文的上下文估计词概率。然而，LMs也面临挑战，比如稀有或未见过的词的问题、过拟合的问题，以及捕获复杂语言现象的困难。研究人员正在不断地改进LM的架构和训练方法，以解决这些挑战。大型语言模型（LLMs）（Chen等人，2021；Kasneci等人，2023；Zhao等人，2023a）是具有大量参数和出色学习能力的先进语言模型。许多LLMs，如GPT-3（Floridi和Chiriatti，2020），InstructGPT（Ouyang等人，2022）和GPT-4（OpenAI，2023b）的核心模块是Transformer（Vaswani等人，2017）中的自注意力模块，这是进行语言建模任务的基本构建块。Transformers革新了NLP领域，它们能有效地处理顺序数据，实现并行化，并捕获文本中的长距离依赖关系。LLMs的一个关键特性是基于上下文的学习（Brown等人，2020），在这里，模型被训练基于给定的上下文或提示生成文本。这使得LLMs能生成更连贯和与上下文相关的回应，使得它们适合于交互和对话应用。来自人类反馈的强化学习（RLHF）（Christiano等人，2017；Ziegler等人，2019）是LLMs的另一个关键方面。这种技术涉及使用人类生成的反馈作为奖励进行模型的微调，从而使模型能够从其错误中学习并随着时间的推移提高其性能。

在自回归语言模型中，如GPT-3（Floridi和Chiriatti，2020）和PaLM（Chowdhery等人，2022），给定上下文序列X，LM任务旨在预测下一个标记y。模型通过最大化在给定上下文的条件下的标记序列的概率进行训练，即，P(y|X) = P(y|x1, x2, ..., xt−1)，其中x1, x2, ..., xt−1是上下文序列中的标记，t是当前位置。通过使用链式规则，条件概率可以分解为给定其前序上下文的每个标记的条件概率的乘积，即，

其中T是序列长度。这样，模型以自回归的方式预测每个位置的每个标记，生成一个完整的文本序列。与LLMs交互的一种常见方法是提示工程（Clavie等人，2023；White等人，2023；周等人，2022），用户设计并提供特定的提示文本以指导LLMs生成期望的响应或完成特定任务。这在现有的评估工作中被广泛采用。人们也可以进行问答交互（Jansson等人，2021），向模型提问并得到回答，或参与对话交互，与LLMs进行自然语言对话。总的来说，LLMs凭借其Transformer架构、基于上下文的学习和RLHF能力，已经革新了NLP，并在各种应用中充满了希望。表1提供了传统机器学习、深度学习和LLMs的简要比较。

3 评估什么

**我们应该评估LLMs在哪些任务上的表现？在哪些任务上，我们可以说明LLMs的优点和缺点？**在本节中，我们将现有的任务划分为以下几类：自然语言处理任务、伦理和偏见、医疗应用、社会科学、自然科学和工程任务、代理应用（使用LLMs作为代理）以及其他任务。

**3.1 自然语言处理任务 **

开发语言模型，特别是大型语言模型的最初目标是提高自然语言处理任务的性能，包括理解和生成。因此，大多数评估研究主要集中在自然语言任务上。表2总结了现有研究的评估方面，我们主要在以下内容中强调他们的结论。

3.2 鲁棒性、伦理、偏见和可信度

评估LLMs包括鲁棒性、伦理、偏见和可信度等关键方面。这些因素在全面评估LLMs的性能方面越来越重要。

3.3 社会科学

社会科学涉及对人类社会和个体行为的研究，包括经济学、社会学、政治学、法学等学科。评估LLMs在社会科学中的表现对于学术研究、政策制定和社会问题解决非常重要。这样的评估可以帮助提高模型在社会科学中的适用性和质量，增加对人类社会的理解，并促进社会进步。

**3.4 自然科学和工程 **

在自然科学和工程领域评估LLMs的表现可以帮助指导科学研究、技术开发和工程研究的应用和发展。

3.5 医疗应用

最近，LLMs在医疗领域的应用引起了重要的关注。在这一部分，我们回顾了将LLMs应用于医疗应用的现有工作。具体来说，我们将它们分为表5所示的四个方面：医疗问答、医学检查、医疗评估和医疗教育。

3.6 代理应用

LLMs并非只专注于通用语言任务，它们可以在各种领域中被利用作为强大的工具。为LLMs配备外部工具可以大大扩展模型的能力。黄等人（2023a）介绍了KOSMOS-1，它能够理解一般模式，按照指示进行学习，并基于上下文进行学习。Karpas等人（2022）强调，知道何时以及如何使用这些外部符号工具至关重要，这种知识是由LLMs的能力决定的，特别是当这些工具可以可靠地运作时。此外，还有两项其他研究，Toolformer（Schick等人，2023）和TALM（Parisi等人，2022），探索了使用工具来增强语言模型的可能性。Toolformer采用一种训练方法来确定特定API的最佳使用方式，并将获得的结果集成到后续的token预测中。另一方面，TALM将无法区分的工具与基于文本的方法相结合，以增强语言模型，并采用一种被称为"自我游戏"的迭代技术，由最少的工具演示来指导。申等人（2023）提出了HuggingGPT框架，该框架利用LLMs连接机器学习社区内的各种人工智能模型（如Hugging Face），旨在解决人工智能任务

3.7 其他应用除了上述分类，LLMs还在其他各种领域进行了评估，包括教育、搜索和推荐、性格测试和特定应用等。

4 在哪里评估：数据集和基准

测试 LLMs 的评估数据集用于测试和比较不同语言模型在各种任务上的性能，如第 3 节所示。这些数据集，如GLUE（Wang等人，2018年）和SuperGLUE（Wang等人，2019年），旨在模拟现实世界的语言处理场景，并涵盖多样化的任务，如文本分类、机器翻译、阅读理解和对话生成。本节不会讨论针对语言模型的任何单一数据集，而是针对LLMs的基准。由于LLMs的基准正在发展，我们在表7.5中列出了19个流行的基准。每个基准都关注不同的方面和评估标准，为各自的领域提供了宝贵的贡献。为了更好的总结，我们将这些基准划分为两个类别：通用语言任务的基准和特定下游任务的基准。

5 如何评估

在本节中，我们将介绍两种常见的评估方法：自动评估和人工评估。实际上，“如何评估”的分类也并不确定。我们的分类基于评估标准是否可以自动计算。如果它可以自动计算，我们将其归类为自动评估；否则，它就属于人工评估。

**5.1 自动评估 **自动评估大型语言模型是一种常见且可能是最受欢迎的评估方法，通常使用标准度量或指标和评估工具来评估模型的性能，如准确率、BLEU (Papineni等人，2002年)、ROUGE (Lin，2004年)、BERTScore (Zhang等人，2019年)等。例如，我们可以使用BLEU分数来量化模型生成的文本与参考文本在机器翻译任务中的相似性和质量。实际上，大多数现有的评估努力都采用这种评估协议，因为它的主观性、自动计算和简单性。因此，大多数确定性任务，如自然语言理解和数学问题，通常采用这种评估协议。与人工评估相比，自动评估不需要人工参与，这节省了评估成本并且耗时较少。例如，(Qin等人，2023年)和Bang等人（2023年）都使用自动评估方法评估大量任务。最近，随着LLMs的发展，一些先进的自动评估技术也被设计出来帮助评估。Lin和Chen（2023年）提出了LLM-EVAL，这是一个用于与LLMs进行开放领域对话的统一的多维自动评估方法。PandaLM（Wang等人，2023g）可以通过训练一个作为“裁判”的LLM来实现可复制的自动语言模型评估，该LLM用于评估不同的模型。由于自动评估论文的大量存在，我们不会详细介绍它们。自动评估的原理实际上与其他AI模型评估过程相同：我们只是使用一些标准度量来计算这些度量下的某些值，这些值作为模型性能的指标。

5.2 人工评估 LLMs的能力已经超越了在一般自然语言任务上的标准评估度量。因此，在一些非标准情况下，自动评估不适用时，人工评估成为一个自然的选择。例如，在开放生成任务中，嵌入的相似度度量（如BERTScore）是不够的，人工评估更可靠（Novikova等人，2017年）。虽然一些生成任务可以采用某些自动评估协议，但在这些任务中，人工评估更受欢迎，因为生成总是可以比标准答案更好。LLMs的人工评估是通过人的参与来评估模型生成结果的质量和准确性的一种方式。与自动评估相比，手动评估更接近实际应用场景，可以提供更全面和准确的反馈。在LLMs的手动评估中，通常邀请评估员（如专家、研究者或普通用户）来评估模型生成的结果。例如，Ziems等人（2023年）使用了专家的注释进行生成。通过人工评估，(Liang等人，2022年)对6种模型的总结和虚假信息场景进行了人工评估，Bang等人（2023年）评估了类比推理任务。由Bubeck等人（2023年）完成的开创性的评估工作使用GPT-4进行了一系列的人工测试，他们发现GPT-4在多个任务上的表现接近或甚至超过了人的表现。这项评估要求人类评估员实际测试和比较模型的性能，而不仅仅是通过自动评估度量评估模型。需要注意的是，即使是人工评估也可能有高的方差和不稳定性，这可能是由于文化和个体差异造成的（Peng等人，1997年）。在实际应用中，这两种评估方法都会根据实际情况进行考虑和权衡。

6 结论

**评估具有深远的意义，在AI模型，尤其是大型语言模型的进步中变得至关重要。**本文提出了第一份从三个方面对LLMs的评估进行全面概述的调查：评估什么、如何评估和在哪里评估。我们的目标是通过封装评估任务、协议和基准，增强对LLMs当前状态的理解，阐明它们的优点和局限性，并为未来LLMs的进步提供洞见。我们的调查显示，当前的LLMs在许多任务中都存在一定的限制，特别是推理和鲁棒性任务。同时，现代评估系统需要适应和发展的需求仍然明显，以确保准确评估LLMs的固有能力和局限性。我们确定了未来研究应该解决的几个重大挑战，希望LLMs可以逐步增强它们对人类的服务。

成为VIP会员查看完整内容