**大型语言模型(LLMs)的评估新范式

大型语言模型(LLMs)因其多功能性与高效性已无处不在,而其发展的关键环节在于可扩展且有效的任务评估能力。然而,这种多功能性也带来了重大挑战:LLMs需要在开放式任务(如编写故事或构建网站)上进行评估,而此类任务的正确答案无法穷举,使得规模化评估极为困难——传统方法无法依赖标准答案比对。因此,现有方案要么依赖高成本的人工评判,要么采用可扩展的代理任务进行评估,但这些代理任务往往难以反映真实场景中的表现。 本论文提出了一种更可扩展、更可靠的LLM评估方法,其核心思想是利用LLMs自身作为评估者,在规模化与类人评判之间取得平衡。论文前半部分探讨了LLM评判员(LLM-judges)——通过大模型评估其他模型输出的质量。我们提出了AlpacaEval,一种基于预言机级LLM的简易评估流程,通过对比候选模型与基线模型的输出,其评估结果与人类评判高度一致(相关系数ρ=0.94),而成本仅为人工评估的1/20,速度提升50倍。 随后,我们研究了调用外部工具的AI智能体的评估问题。核心挑战在于安全评估工具调用行为——传统方法需依赖沙箱环境,但大多数工具要么缺乏沙箱支持,要么配置耗时。为此,我们提出ToolEmu,通过LLM模拟工具行为,实现安全、可扩展且高保真的智能体评估。 综上,本论文探索了一种基于LLMs的开放式AI系统评估新范式,在保证评估质量的同时显著提升了可扩展性。

成为VIP会员查看完整内容
22

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【伯克利博士论文】高效深度学习推理的全栈方法
专知会员服务
30+阅读 · 2024年12月22日
【NUS博士论文】视频语义理解中的因果模型
专知会员服务
32+阅读 · 2024年10月30日
【牛津大学博士论文】有效的离线训练与高效的在线适应
专知会员服务
36+阅读 · 2020年11月29日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
448+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员