The rapid proliferation of Large Language Models (LLMs) and diverse specialized benchmarks necessitates a shift from fragmented, task-specific metrics to a holistic, competitive ranking system that effectively aggregates performance across multiple ability dimensions. Primarily using static scoring, current evaluation methods are fundamentally limited. They struggle to determine the proper mix ratio across diverse benchmarks, and critically, they fail to capture a model's dynamic competitive fitness or its vulnerability when confronted with sequential, high-stakes tasks. To address this, we introduce the novel Competitive Swiss-System Dynamics (CSD) framework. CSD simulates a multi-round, sequential contest where models are dynamically paired across a curated sequence of benchmarks based on their accumulated win-loss record. And Monte Carlo Simulation ($N=100,000$ iterations) is used to approximate the statistically robust Expected Win Score ($E[S_m]$), which eliminates the noise of random pairing and early-round luck. Furthermore, we implement a Failure Sensitivity Analysis by parameterizing the per-round elimination quantity ($T_k$), which allows us to profile models based on their risk appetite--distinguishing between robust generalists and aggressive specialists. We demonstrate that CSD provides a more nuanced and context-aware ranking than traditional aggregate scoring and static pairwise models, representing a vital step towards risk-informed, next-generation LLM evaluation.


翻译:大型语言模型(LLM)的快速涌现以及多样化专业基准测试的发展,使得评估体系亟需从碎片化的任务特定指标转向能够有效聚合多维度能力的整体性竞争排名系统。当前评估方法主要依赖静态评分,存在根本性局限:它们难以确定跨不同基准的合理混合比例,且关键的是,无法捕捉模型在面临连续高风险任务时的动态竞争适应度或其脆弱性。为解决这一问题,我们引入了新颖的竞争性瑞士制动态(CSD)框架。CSD模拟了一个多轮次、连续进行的竞赛,模型根据其累积胜负记录,在精心设计的基准测试序列中被动态配对进行对抗。我们采用蒙特卡洛模拟($N=100,000$次迭代)来近似计算统计稳健的期望获胜分数($E[S_m]$),从而消除了随机配对和早期轮次运气带来的噪声。此外,我们通过参数化每轮淘汰数量($T_k$)实施了失败敏感性分析,这使得我们能够根据模型的风险偏好进行画像——区分稳健的通才模型与激进的专才模型。我们证明,相较于传统的聚合评分和静态配对模型,CSD能够提供更细致且情境感知的排名,这标志着向基于风险认知的下一代LLM评估迈出了关键一步。

0
下载
关闭预览

相关内容

【ICML2024】SAPG:分裂与聚合策略梯度
专知会员服务
19+阅读 · 2024年7月30日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员