大模型如何迭代？北大等《大型语言模型自我进化》综述

大型语言模型（LLMs）在各个领域和智能代理应用中取得了显著进展。然而，当前从人类或外部模型监督学习的LLMs成本高昂，并且随着任务复杂性和多样性的增加，可能面临性能上限的挑战。为了解决这个问题，自我进化方法使LLM能够自主获取、精炼和学习模型自身生成的经验，正迅速发展。这种受人类经验学习过程启发的新训练范式为将LLMs扩展到超级智能提供了潜力。在这项工作中，我们提出了对LLMs中自我进化方法的全面调查。首先，我们提出了一个自我进化的概念框架，并概述了演化过程，该过程由四个阶段的迭代循环组成：经验获取、经验精炼、更新和评估。其次，我们对LLMs和基于LLMs的代理的演化目标进行分类；然后，我们总结了文献，并为每个模块提供了分类法和见解。最后，我们指出了现有的挑战，并提出了未来的方向，以改进自我进化框架，为研究人员提供关键的见解，加快自我进化LLMs的发展。我们对应的 GitHub 仓库可以在 https://github.com/AlibabaResearch/DAMOConvAI/tree/main/Awesome-Self-Evolutionof-LLM 获取。

****随着人工智能的快速发展，诸如GPT3.5（Ouyang等，2022）、GPT-4（Achiam等，2023）、Gemini（Team等，2023）、LLaMA（Touvron等，2023a，b）和Qwen（Bai等，2023）等大型语言模型（LLMs）标志着语言理解和生成方面的重大转变。这些模型经历了三个发展阶段，如图1所示：首先，在大规模和多样化的语料库上进行预训练，以获得对语言和世界知识的一般理解（Devlin等人，2018；Brown等人，2020），然后进行监督微调以引发下游任务的能力（Raffel等人，2020；Chung等人，2022）。最后，人类偏好对齐训练使LLMs能够以人类行为作出反应（Ouyang等，2022）。这种连续的训练范 paradigms 取得了重大突破，使LLMs能够执行一系列任务，具有显着的零射击和上下文能力，例如问答（Tan等，2023）、数学推理（Collins等，2023）、代码生成（Liu等，2024b）以及需要与环境进行交互的任务解决（Liu等，2023b）。

尽管取得了这些进展，但人们预计新兴一代的LLMs可以被赋予更高复杂度的任务，例如科学发现（Miret和Krishnan，2024）和未来事件预测（Schoenegger等，2024）。然而，由于现有训练范 paradigms 中建模、标注和评估的固有困难，当前的LLMs在这些复杂任务中面临挑战（Burns等，2023）。此外，最近开发的Llama-3模型已经在包含15万亿标记的广泛语料库上进行了训练。这是一个庞大的数据量，表明通过添加更多现实世界的数据来显著扩展模型性能可能存在限制。这引起了人们对LLMs自我进化机制的兴趣，类似于人类智能的自然演变，并由游戏中的人工智能发展所说明，例如从AlphaGo（Silver等，2016）到AlphaZero（Silver等，2017）的过渡。AlphaZero的自我对弈方法，无需标记数据，为LLMs超越当前限制并实现超人类表现提供了前进的道路。

受到上述范 paradigm 的启发，LLMs的自我进化研究在模型发展的不同阶段迅速增加，例如自我指导（Wang等，2023b）、自我对弈（Tu等，2024）、自我改进（Huang等，2022）和自我训练（Gulcehre等，2023）。值得注意的是，DeepMind的AMIE系统（Tu等，2024）在诊断准确性方面超过了初级保健医生，而微软的WizardLM-2系统超过了GPT-4的初始版本的性能。这两个模型都是使用具有自主学习能力的自我进化框架开发的，并代表了LLM培训范 paradigm 的潜在转变。然而，这些方法之间的关系仍然不清楚，缺乏系统的组织和分析。因此，我们首先全面调查LLMs中的自我进化过程，并为其发展建立一个概念框架。

这种自我进化的特点是一个迭代循环，涉及经验获取、经验改进、更新和评估，如图2所示。在循环过程中，LLM通过不断发展新任务和生成相应的解决方案来获得经验，随后通过更新模型的重量或上下文来获取更好的监督信号。在评估模型进展并设定新目标后，LLM最终被评估。 LLMs中自我进化的概念在各种研究社区中引起了相当大的兴奋，承诺一个能够自适应、学习和自主改进的模型新时代，类似于人类对不断变化的环境和挑战的演变。自我进化的LLMs不仅能够超越当前静态、数据约束的模型的局限，而且还标志着向更加动态、健壮和智能的系统的转变。

通过提供一个结构化的概念框架，这项调查通过全面概述深化了对自我进化LLMs新兴领域的理解。我们追溯了该领域从过去到最新的前沿方法和应用的演变，同时检查了现有的挑战并勾勒了未来的研究方向，为自我进化框架和下一代模型的开发铺平了道路。

本调查分为以下几个部分：我们首先介绍自我进化的概述（§2），包括背景和概念框架。我们总结了当前方法的现有进化能力和领域（§3）。然后，我们对自我进化过程的不同阶段的最新进展进行了深入分析和讨论，包括经验获取（§4）、经验改进（§5）、更新（§6）和评估（§7）。最后，我们概述了开放性问题和未来方向（§8）。