大型语言模型(LLMs)在各个领域和智能代理应用中取得了显著进展。然而,当前从人类或外部模型监督学习的LLMs成本高昂,并且随着任务复杂性和多样性的增加,可能面临性能上限的挑战。为了解决这个问题,自我进化方法使LLM能够自主获取、精炼和学习模型自身生成的经验,正迅速发展。这种受人类经验学习过程启发的新训练范式为将LLMs扩展到超级智能提供了潜力。在这项工作中,我们提出了对LLMs中自我进化方法的全面调查首先,我们提出了一个自我进化的概念框架,并概述了演化过程,该过程由四个阶段的迭代循环组成:经验获取、经验精炼、更新和评估。其次,我们对LLMs和基于LLMs的代理的演化目标进行分类;然后,我们总结了文献,并为每个模块提供了分类法和见解。最后,我们指出了现有的挑战,并提出了未来的方向,以改进自我进化框架,为研究人员提供关键的见解,加快自我进化LLMs的发展。我们对应的 GitHub 仓库可以在 https://github.com/AlibabaResearch/DAMOConvAI/tree/main/Awesome-Self-Evolutionof-LLM 获取。

****随着人工智能的快速发展,诸如GPT3.5(Ouyang等,2022)、GPT-4(Achiam等,2023)、Gemini(Team等,2023)、LLaMA(Touvron等,2023a,b)和Qwen(Bai等,2023)等大型语言模型(LLMs)标志着语言理解和生成方面的重大转变。这些模型经历了三个发展阶段,如图1所示:首先,在大规模和多样化的语料库上进行预训练,以获得对语言和世界知识的一般理解(Devlin等人,2018;Brown等人,2020),然后进行监督微调以引发下游任务的能力(Raffel等人,2020;Chung等人,2022)。最后,人类偏好对齐训练使LLMs能够以人类行为作出反应(Ouyang等,2022)。这种连续的训练范 paradigms 取得了重大突破,使LLMs能够执行一系列任务,具有显着的零射击和上下文能力,例如问答(Tan等,2023)、数学推理(Collins等,2023)、代码生成(Liu等,2024b)以及需要与环境进行交互的任务解决(Liu等,2023b)。

尽管取得了这些进展,但人们预计新兴一代的LLMs可以被赋予更高复杂度的任务,例如科学发现(Miret和Krishnan,2024)和未来事件预测(Schoenegger等,2024)。然而,由于现有训练范 paradigms 中建模、标注和评估的固有困难,当前的LLMs在这些复杂任务中面临挑战(Burns等,2023)。此外,最近开发的Llama-3模型已经在包含15万亿标记的广泛语料库上进行了训练。这是一个庞大的数据量,表明通过添加更多现实世界的数据来显著扩展模型性能可能存在限制。这引起了人们对LLMs自我进化机制的兴趣,类似于人类智能的自然演变,并由游戏中的人工智能发展所说明,例如从AlphaGo(Silver等,2016)到AlphaZero(Silver等,2017)的过渡。AlphaZero的自我对弈方法,无需标记数据,为LLMs超越当前限制并实现超人类表现提供了前进的道路。

受到上述范 paradigm 的启发,LLMs的自我进化研究在模型发展的不同阶段迅速增加,例如自我指导(Wang等,2023b)、自我对弈(Tu等,2024)、自我改进(Huang等,2022)和自我训练(Gulcehre等,2023)。值得注意的是,DeepMind的AMIE系统(Tu等,2024)在诊断准确性方面超过了初级保健医生,而微软的WizardLM-2系统超过了GPT-4的初始版本的性能。这两个模型都是使用具有自主学习能力的自我进化框架开发的,并代表了LLM培训范 paradigm 的潜在转变。然而,这些方法之间的关系仍然不清楚,缺乏系统的组织和分析。 因此,我们首先全面调查LLMs中的自我进化过程,并为其发展建立一个概念框架。

这种自我进化的特点是一个迭代循环,涉及经验获取、经验改进、更新和评估,如图2所示。在循环过程中,LLM通过不断发展新任务和生成相应的解决方案来获得经验,随后通过更新模型的重量或上下文来获取更好的监督信号。在评估模型进展并设定新目标后,LLM最终被评估。 LLMs中自我进化的概念在各种研究社区中引起了相当大的兴奋,承诺一个能够自适应、学习和自主改进的模型新时代,类似于人类对不断变化的环境和挑战的演变。自我进化的LLMs不仅能够超越当前静态、数据约束的模型的局限,而且还标志着向更加动态、健壮和智能的系统的转变。

通过提供一个结构化的概念框架,这项调查通过全面概述深化了对自我进化LLMs新兴领域的理解。我们追溯了该领域从过去到最新的前沿方法和应用的演变,同时检查了现有的挑战并勾勒了未来的研究方向,为自我进化框架和下一代模型的开发铺平了道路。

本调查分为以下几个部分:我们首先介绍自我进化的概述(§2),包括背景和概念框架。我们总结了当前方法的现有进化能力和领域(§3)。然后,我们对自我进化过程的不同阶段的最新进展进行了深入分析和讨论,包括经验获取(§4)、经验改进(§5)、更新(§6)和评估(§7)。最后,我们概述了开放性问题和未来方向(§8)。

成为VIP会员查看完整内容
37

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
《大型语言模型持续学习》综述
专知会员服务
49+阅读 · 4月26日
大型语言模型的高效提示方法综述
专知会员服务
64+阅读 · 4月2日
《多模态大型语言模型进化》最新综述
专知会员服务
77+阅读 · 2月23日
基于模型的强化学习综述
专知
18+阅读 · 2022年7月13日
【KDD2020】图神经网络生成式预训练
专知
21+阅读 · 2020年7月3日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2013年12月31日
Arxiv
133+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
327+阅读 · 2023年3月31日
Arxiv
56+阅读 · 2023年3月26日
Arxiv
115+阅读 · 2023年3月24日
Arxiv
16+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员