Competitive programming problems increasingly serve as valuable benchmarks to evaluate the coding capabilities of large language models (LLMs) due to their complexity and ease of verification. Yet, current coding benchmarks face limitations such as lack of exceptionally challenging problems, insufficient test case coverage, reliance on online platform APIs that limit accessibility. To address these issues, we introduce LiveOIBench, a comprehensive benchmark featuring 403 expert-curated Olympiad-level competitive programming problems, each with an average of 60 expert-designed test cases. The problems are sourced directly from 72 official contests of 14 Informatics Olympiads in different regions conducted between 2023 and 2025. LiveOIBench distinguishes itself through four key features: (1) meticulously curated high-quality tasks with detailed subtask rubrics and extensive private test cases; (2) direct integration of elite contestant performance data to enable informative comparison against top-performing humans; (3) planned continuous, contamination-free updates from newly released Olympiad problems; and (4) a self-contained evaluation system facilitating offline and easy-to-reproduce assessments. Benchmarking 34 popular general-purpose and reasoning LLMs, we find that GPT-5 achieves a notable 81.76th percentile, a strong result that nonetheless falls short of top human contestants, who usually place above 90th. In contrast, among open-weight reasoning models, GPT-OSS-120B achieves only a 60th percentile, underscoring significant capability disparities from frontier closed models. Detailed analyses indicate that robust reasoning models prioritize precise problem analysis over excessive exploration, suggesting future models should emphasize structured analysis and minimize unnecessary exploration. All data, code, and leaderboard results are publicly available on our website.


翻译:由于复杂性和易于验证的特点,竞赛编程问题日益成为评估大型语言模型(LLM)编码能力的宝贵基准。然而,当前的编码基准测试存在诸多局限,例如缺乏极具挑战性的问题、测试用例覆盖不足、依赖限制可访问性的在线平台API等。为解决这些问题,我们提出了LiveOIBench,这是一个包含403道专家精心策划的奥林匹克级别竞赛编程问题的综合性基准测试,每道题平均配有60个专家设计的测试用例。这些问题直接来源于2023年至2025年间举办的14个不同地区信息学奥林匹克竞赛的72场官方比赛。LiveOIBench通过四个关键特征脱颖而出:(1)精心策划的高质量任务,包含详细的子任务评分标准和大量私有测试用例;(2)直接整合精英选手表现数据,以便与顶尖人类选手进行信息丰富的比较;(3)计划从新发布的奥林匹克问题中持续、无污染地更新;(4)一个自包含的评估系统,便于进行离线且易于复现的评估。在对34个流行的通用和推理LLM进行基准测试后,我们发现GPT-5达到了显著的81.76百分位数,这是一个强劲的结果,但仍未达到顶尖人类选手的水平(他们通常位于90百分位数以上)。相比之下,在开源权重的推理模型中,GPT-OSS-120B仅达到60百分位数,突显了其与前沿闭源模型之间存在显著的能力差距。详细分析表明,强大的推理模型优先进行精确的问题分析,而非过度探索,这表明未来的模型应强调结构化分析并尽量减少不必要的探索。所有数据、代码和排行榜结果均在我们的网站上公开提供。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员