近年来,随着大语言模型能力在深度和广度上的快速发展,各类相应的评测基准不断涌现。作为衡量模型性能的量化评估工具,基准不仅是评价模型能力的核心手段,也是引导模型发展方向、推动技术创新的重要因素。本文首次系统性地回顾了大语言模型基准的现状与发展,将283个具有代表性的基准划分为三大类:通用能力类、领域特定类和目标特定类。通用能力基准涵盖核心语言学、知识与推理等方面;领域特定基准主要聚焦于自然科学、人文社会科学以及工程技术等领域;目标特定基准则关注风险、可靠性、智能体等方面。我们指出,当前基准仍存在一些问题,例如数据污染导致的分数虚高、文化与语言偏差引发的不公平评估、以及缺乏对过程可信度和动态环境的考察。最后,我们提出了一个可供参考的未来基准创新设计范式。

1 引言

自从 2017 年 Transformer 架构 [1] 被提出以来,大语言模型(LLMs)凭借其强大的自然语言处理能力,在人工智能(AI)领域掀起了一场革命性浪潮。从基础的自然语言理解与文本生成任务,到复杂的逻辑推理与智能体交互,LLMs 不断拓展 AI 的能力边界,并重塑了人机交互范式与信息处理模式。随着 GPT 系列 [2, 3, 4]、LLaMA 系列 [5, 6, 7]、Qwen 系列 [8, 9, 10] 等模型的相继推出,LLMs 已经广泛渗透到智能客服、内容创作、教育、医疗、法律等领域,成为推动数字经济发展和社会智能化转型的核心驱动力。 随着 LLM 技术迭代的加速,建立一个科学而全面的评价体系已变得尤为迫切。作为衡量模型性能的量化评估手段,基准不仅是检验模型能力的核心工具,也是引导模型发展方向、推动技术创新的关键环节。通过基准测试,研究者可以客观比较不同模型的优劣,准确定位技术瓶颈,并为算法优化与架构设计提供数据支撑;同时,标准化的评估结果有助于建立用户信任,确保模型在安全性与公平性方面符合社会与伦理规范。 然而,与早期以 GLUE [11] 和 SuperGLUE [12] 为代表的语言模型评测基准相比,LLM 时代的模型参数规模呈指数级增长,能力维度也从单任务拓展到多任务与多领域(如 MMLU [13]、GIG-bench [14]、GPQA [15]、SuperGPQA [16]),评测范式也从固定任务转向多任务与多领域。这些变化对评估体系的科学性与适应性提出了更高要求。 目前,LLM 评估领域仍面临诸多亟待解决的挑战。首先,数据泄漏 [17, 18] 问题日益突出,部分模型在训练阶段已暴露于评测数据,导致评测结果虚高,无法真实反映模型的泛化能力;其次,静态评测 [13, 19] 难以模拟动态的真实场景,难以预测模型在面对新任务和新领域时的表现。再者,评估指标的单一性(如过度依赖准确率和 BLEU 分数)无法全面刻画 LLMs 的复杂能力,而对于偏见与安全漏洞的检测、以及指令遵循性的系统化评估等关键需求仍未得到有效满足。此外,大规模评估所需的算力与人力成本高昂,以及任务设计难以覆盖真实世界复杂性,这些因素都严重制约了 LLMs 的健康发展。图1 展示了具有代表性的大语言模型基准的时间线,说明了这一快速演化的过程。 本文首次针对 LLM 基准开展系统性的综述与前瞻性分析,主要贡献如下: 1. 首次对 283 个 LLM 基准 进行系统分析与归纳,总结为三大类:通用能力基准、领域特定基准与目标特定基准。 1. 从数据来源、数据格式、数据规模、评测方法、评测指标等多个维度,全面剖析各类基准的设计动机与局限性,并为后续基准创新提供可直接借鉴的设计范式。 1. 指出当前 LLM 基准所面临的三大突出问题:数据污染导致的分数虚高文化与语言偏差引发的不公平评估、以及缺乏对“过程可信度”和“动态环境”的评估

成为VIP会员查看完整内容
0

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
扩散模型量化综述
专知会员服务
15+阅读 · 5月11日
融合知识图谱的大语言模型研究综述
专知会员服务
29+阅读 · 4月18日
时间序列大模型综述
专知会员服务
41+阅读 · 4月8日
小型语言模型综述
专知会员服务
50+阅读 · 2024年10月29日
多模态复合编辑与检索综述
专知会员服务
24+阅读 · 2024年9月14日
多模态大规模语言模型基准的综述
专知会员服务
38+阅读 · 2024年8月25日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
《大型语言模型保护措施》综述
专知会员服务
29+阅读 · 2024年6月6日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
52+阅读 · 2024年4月9日
《大型语言模型归因》综述
专知会员服务
73+阅读 · 2023年11月8日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
多模态情绪识别研究综述
专知
24+阅读 · 2020年12月21日
基于深度学习的数据融合方法研究综述
专知
34+阅读 · 2020年12月10日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
层级强化学习概念简介
CreateAMind
19+阅读 · 2019年6月9日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
477+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
173+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
扩散模型量化综述
专知会员服务
15+阅读 · 5月11日
融合知识图谱的大语言模型研究综述
专知会员服务
29+阅读 · 4月18日
时间序列大模型综述
专知会员服务
41+阅读 · 4月8日
小型语言模型综述
专知会员服务
50+阅读 · 2024年10月29日
多模态复合编辑与检索综述
专知会员服务
24+阅读 · 2024年9月14日
多模态大规模语言模型基准的综述
专知会员服务
38+阅读 · 2024年8月25日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
《大型语言模型保护措施》综述
专知会员服务
29+阅读 · 2024年6月6日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
52+阅读 · 2024年4月9日
《大型语言模型归因》综述
专知会员服务
73+阅读 · 2023年11月8日
相关资讯
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
多模态情绪识别研究综述
专知
24+阅读 · 2020年12月21日
基于深度学习的数据融合方法研究综述
专知
34+阅读 · 2020年12月10日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
层级强化学习概念简介
CreateAMind
19+阅读 · 2019年6月9日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员