Benchmarks play a crucial role in tracking the rapid advancement of large language models (LLMs) and identifying their capability boundaries. However, existing benchmarks predominantly curate questions at the question level, suffering from three fundamental limitations: vulnerability to data contamination, restriction to single-knowledge-point assessment, and reliance on costly domain expert annotation. We propose Encyclo-K, a statement-based benchmark that rethinks benchmark construction from the ground up. Our key insight is that knowledge statements, not questions, can serve as the unit of curation, and questions can then be constructed from them. We extract standalone knowledge statements from authoritative textbooks and dynamically compose them into evaluation questions through random sampling at test time. This design directly addresses all three limitations: the combinatorial space is too vast to memorize, and model rankings remain stable across dynamically generated question sets, enabling reliable periodic dataset refresh; each question aggregates 8-10 statements for comprehensive multi-knowledge assessment; annotators only verify formatting compliance without requiring domain expertise, substantially reducing annotation costs. Experiments on over 50 LLMs demonstrate that Encyclo-K poses substantial challenges with strong discriminative power. Even the top-performing OpenAI-GPT-5.1 achieves only 62.07% accuracy, and model performance displays a clear gradient distribution--reasoning models span from 16.04% to 62.07%, while chat models range from 9.71% to 50.40%. These results validate the challenges introduced by dynamic evaluation and multi-statement comprehensive understanding. These findings establish Encyclo-K as a scalable framework for dynamic evaluation of LLMs' comprehensive understanding over multiple fine-grained disciplinary knowledge statements.


翻译:基准测试在追踪大语言模型的快速进展和界定其能力边界方面起着至关重要的作用。然而,现有基准测试主要在问题层面进行题目构建,存在三个根本性局限:易受数据污染影响、局限于单知识点评估,以及依赖昂贵的领域专家标注。我们提出了Encyclo-K,一个基于陈述的基准测试,它从根本上重新思考了基准构建方式。我们的核心见解是,知识陈述而非问题本身,可以作为构建的基本单元,而问题则可以由这些陈述动态生成。我们从权威教科书中提取独立的知识陈述,并在测试时通过随机采样将其动态组合成评估问题。这一设计直接解决了上述三个局限:组合空间过于庞大而无法被记忆,模型排名在不同动态生成的问题集上保持稳定,从而实现可靠的周期性数据集更新;每个问题聚合8-10条陈述,用于全面的多知识评估;标注者仅需验证格式合规性而无需领域专业知识,大幅降低了标注成本。在超过50个大语言模型上的实验表明,Encyclo-K构成了具有强大区分度的显著挑战。即使表现最佳的OpenAI-GPT-5.1也仅达到62.07%的准确率,且模型性能呈现出清晰的梯度分布——推理模型的范围从16.04%到62.07%,而对话模型的范围则从9.71%到50.40%。这些结果验证了动态评估和多陈述综合理解所带来的挑战。这些发现确立了Encyclo-K作为一个可扩展的框架,用于动态评估大语言模型对多个细粒度学科知识陈述的综合理解能力。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员