Translating human-written mathematical theorems and proofs from natural language (NL) into formal languages (FLs) like Lean 4 has long been a significant challenge for AI. Most state-of-the-art methods address this separately, first translating theorems and then generating proofs, creating a fundamental disconnect vis-a-vis true proof auto-formalization. This two-step process and its limitations were evident even in AlphaProof's silver-medal performance at the 2024 IMO, where problem statements needed manual translation before automated proof synthesis. We present ProofBridge, a unified framework for automatically translating entire NL theorems and proofs into Lean 4. At its core is a joint embedding model that aligns NL and FL (NL-FL) theorem-proof pairs in a shared semantic space, enabling cross-modal retrieval of semantically relevant FL examples to guide translation. Our training ensures that NL-FL theorems (and their proofs) are mapped close together in this space if and only if the NL-FL pairs are semantically equivalent. ProofBridge integrates retrieval-augmented fine-tuning with iterative proof repair, leveraging Lean's type checker and semantic equivalence feedback to ensure both syntactic correctness and semantic fidelity. Experiments show substantial improvements in proof auto-formalization over strong baselines (including GPT-5, Gemini-2.5, Kimina-Prover, DeepSeek-Prover), with our retrieval-augmented approach yielding significant gains in semantic correctness (SC, via proving bi-directional equivalence) and type correctness (TC, via type-checking theorem+proof) across pass@k metrics on miniF2F-Test-PF, a dataset we curated. In particular, ProofBridge improves cross-modal retrieval quality by up to 3.28x Recall@1 over all-MiniLM-L6-v2, and achieves +31.14% SC and +1.64% TC (pass@32) compared to the baseline Kimina-Prover-RL-1.7B.


翻译:将人类书写的数学定理与证明从自然语言翻译为Lean 4等形式化语言,长期以来一直是人工智能面临的重大挑战。现有最先进方法大多采用分离处理策略:先翻译定理再生成证明,这种两阶段流程与真正的证明自动形式化存在本质割裂。这种局限性在AlphaProof于2024年国际数学奥林匹克竞赛中获得银牌时已显露无遗——其问题陈述仍需人工翻译才能进行自动证明合成。本文提出ProofBridge,一个将完整自然语言定理与证明自动翻译为Lean 4的统一框架。其核心是联合嵌入模型,该模型将自然语言与形式化语言的定理-证明对映射到共享语义空间,通过跨模态检索语义相关的形式化示例来指导翻译。我们的训练机制确保:当且仅当自然语言-形式化语言对语义等价时,其对应定理(及证明)在语义空间中紧密相邻。ProofBridge融合检索增强微调与迭代证明修复,利用Lean类型检查器与语义等价反馈,同时保障语法正确性与语义保真度。实验表明,在自构建数据集miniF2F-Test-PF上,本方法在证明自动形式化任务中显著超越现有强基线模型(包括GPT-5、Gemini-2.5、Kimina-Prover、DeepSeek-Prover),检索增强策略在pass@k指标下于语义正确性(通过双向等价证明验证)与类型正确性(通过定理+证明的类型检查)均取得显著提升。具体而言,ProofBridge的跨模态检索质量较all-MiniLM-L6-v2最高提升3.28倍Recall@1,相比基线Kimina-Prover-RL-1.7B在pass@32指标上实现语义正确性+31.14%、类型正确性+1.64%的提升。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员