Automated Theorem Proving (ATP) represents a core research direction in artificial intelligence for achieving formal reasoning and verification, playing a significant role in advancing machine intelligence. However, current large language model (LLM)-based theorem provers suffer from limitations such as restricted domain coverage and weak generalization in mathematical reasoning. To address these issues, we propose MSC-180, a benchmark for evaluation based on the MSC2020 mathematical subject classification. It comprises 180 formal verification problems, 3 advanced problems from each of 60 mathematical branches, spanning from undergraduate to graduate levels. Each problem has undergone multiple rounds of verification and refinement by domain experts to ensure formal accuracy. Evaluations of state-of-the-art LLM-based theorem provers under the pass@32 setting reveal that the best model achieves only an 18.89% overall pass rate, with prominent issues including significant domain bias (maximum domain coverage 41.7%) and a difficulty gap (significantly lower pass rates on graduate-level problems). To further quantify performance variability across mathematical domains, we introduce the coefficient of variation (CV) as an evaluation metric. The observed CV values are 4-6 times higher than the statistical high-variability threshold, indicating that the models still rely on pattern matching from training corpora rather than possessing transferable reasoning mechanisms and systematic generalization capabilities. MSC-180, together with its multi-dimensional evaluation framework, provides a discriminative and systematic benchmark for driving the development of next-generation AI systems with genuine mathematical reasoning abilities.


翻译:自动定理证明(ATP)是实现形式化推理与验证的人工智能核心研究方向,对推动机器智能发展具有重要意义。然而,当前基于大语言模型(LLM)的定理证明器存在领域覆盖受限、数学推理泛化能力弱等局限。为应对这些问题,我们提出了MSC-180——一个基于MSC2020数学主题分类构建的评估基准。该基准包含180个形式化验证问题,涵盖从本科到研究生阶段的60个数学分支,每个分支选取3个进阶问题。每个问题均经过领域专家多轮验证与精修,确保形式化准确性。在pass@32设置下对前沿LLM定理证明器的评估显示,最佳模型的总体通过率仅为18.89%,存在显著的领域偏差(最大领域覆盖率41.7%)与难度鸿沟(研究生级别问题通过率显著偏低)等突出问题。为量化模型在不同数学领域的性能波动,我们引入变异系数(CV)作为评估指标。观测到的CV值达到统计高变异阈值的4-6倍,表明模型仍依赖于训练语料的模式匹配,而非具备可迁移的推理机制与系统化泛化能力。MSC-180及其多维评估框架为驱动具有真正数学推理能力的新一代人工智能系统发展,提供了具有区分度与系统性的基准。

0
下载
关闭预览

相关内容

数学是关于数量、结构、变化等主题的探索。
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员